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Kurzfassung 


Die Lösung diverser Aufgabenstellungen aus unterschiedlichsten Anwen- 
dungsbereichen profitiert von der Informationsfusion oder setzt diese sogar 
voraus, da sich nur so eine ausreichend hochwertige Informationsgrundlage 
schaffen lässt. Die Fusion der Beiträge heterogener Informationsquellen 
bietet dabei oftmals besonderes Potential, da diese sich grob gesagt auf- 
grund unterschiedlicher Stärken und Schwächen besonders gut gegenseitig 
ergänzen können. 


Zur adäquaten Umsetzung der IT-gestützten Informationsfusion bedarf es ma- 
thematischer Modelle und Verfahren, um unterschiedliche Informationsbei- 
träge in geeigneter Weise in eine einheitliche formale Beschreibung zu über- 
führen und sie anschließend zu kombinieren. Dabei muss es methodisch gese- 
hen auch möglich sein, das Fusionsergebnis auf spezielle Einzelfragestellun- 
gen zu konzentrieren und es müssen in fundierter und für den Nutzer auch 
verständlicher Weise Entscheidungen von ihm ableitbar sein. 


Die Bayes’sche Theorie liefert oft ausreichend mächtige Werkzeuge zur 
Umsetzung der Informationsfusion auf Basis Bayes’scher Inferenz. Der Infor- 
mationsstand in Bezug auf alle in eine Fusionsaufgabe involvierten Größen 
wird dabei probabilistisch mittels Wahrscheinlichkeitsverteilungen in der 
sog. Degree-of-Belief-Interpretation von Wahrscheinlichkeit repräsentiert. 
Die Bayes’sche Fusionsmethodik ist äußerst fundiert und erfüllt alle essen- 
tiellen Anforderungen an eine sinnvolle Methodik zur Fusion der Beiträge 
heterogener Informationsquellen. Die weitreichende Interpretation von 
Wahrscheinlichkeit als Degree-of-Belief, welche auch oftmals dem intuitiven 
Verständnis von Unsicherheit entspricht, das gerade auch nicht speziell ge- 
schulte Personen mitbringen, eröffnet ihr ein breites Anwendungsspektrum. 


Kurzfassung 


In praktisch relevanten Aufgabenstellungen der Informationsfusion ist jedoch 
der Wertebereich der Größen des Interesses, welche letztlich den im Rahmen 
der Fusion interessierenden Sachverhalt mathematisch fassen, oft sehr um- 
fangreich und von recht hoher Dimension. In solchen Situationen verursachen 
Bayes’sche Verfahren in der Regel hohe, in der Praxis oftmals nicht tragbare 
Rechenzeiten und immensen Speicherbedarf. Dies begründet sich vor allem 
aus der Tatsache, dass gemäß dem Bayes’schen Formalismus immer die kom- 
plette A-Posteriori-Verteilung über dem gesamten Wertebereich der Größen 
des Interesses berechnet werden muss. 


Die vorliegende Arbeit führt neue Ansätze zur Bewältigung Bayes’scher 
Fusion beim Vorliegen eines umfangreichen, ggf. hochdimensionalen Ziel- 
größenraums ein. Der Grundgedanke lokaler Bayes’scher Fusionsansätze 
leitet sich daraus ab, dass in vielen Aufgabenstellungen der Informations- 
fusion der durch die A-Posteriori-Verteilung in probabilistischer Weise 
verkörperte vollständige, d.h. maximal umfassende Informationsstand im 
Hinblick auf die Größen des Interesses eigentlich gar nicht benötigt wird. 
Das Ziel lokaler Bayes’scher Fusion ist es dementsprechend, die Bayes’sche 
Fusion möglichst konzentriert auf die Anteile des Wertebereichs der Größen 
des Interesses durchzuführen, in denen sich tatsächlich Aufgabenrelevantes 
abspielt - in dem Sinne, dass eine detaillierte Betrachtung dieser Anteile 
tatsächlich notwendig ist zur Beantwortung der eigentlichen Fragen. 


Das primäre Ziel der Arbeit besteht darin, diese Ansätze formal mathema- 
tisch zu formulieren und sie grundlegend zu untersuchen, insbesondere im 
Hinblick auf ihre Umsetzbarkeit gerade auch für die Fusion der Beiträge hete- 
rogener Informationsquellen, ihre Ausdrucksstärke und letztlich ihre Fähig- 
keit, die Beantwortung von im Rahmen der Informationsfusion vorliegenden 
Fragestellungen in ausreichender Form zu ermöglichen. Die Arbeit zeigt ins- 
besondere auf, dass die anvisierte Einnahme eines lokalen Standpunkts bei der 
Bayes’schen Fusion konsistent in den Bayes’schen Kalkül integrierbar ist und 
stellt das hierfür notwendige Werkzeug in konzeptioneller und methodischer 
Hinsicht zur Verfügung. 


Für die Umsetzung lokaler Bayes’scher Fusion kann auf das Konzept für eine 
agentenbasierte Fusionsarchitektur, in welcher unterschiedliche Agenten in 


ü 


Kurzfassung 


kooperativer Weise Spuren im Hinblick auf den tatsächlich vorliegenden 
(„wahren“) Wert der Größen des Interesses in den Informationsbeiträgen 
identifizieren, auswerten sowie die damit korrespondierenden Hypothesen 
durch Fusion lokal weiterentwickeln und letztlich zur Zusammenschau 
bereitstellen, zurückgegriffen werden. 
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Notation 


Nachfolgend ist die in der vorliegenden Arbeit verwendete Notation zusam- 


mengestellt. Spezielle Notationen, welche nur für ein bestimmtes Anwen- 


dungsbeispiel oder zur Nutzung innerhalb eines mathematischen Beweises 


verwendet werden, sind nur mit angeführt, wenn dies nötig ist, um z. B. Miss- 


verständnisse gegenüber der sonstigen Notation zu vermeiden. 


Allgemeine Notationen 


Mengen 
Mengensysteme 
Funktionen 
Funktionale 
Matrizen 
Vektoren 


Parameter (Schranken, 
Gewichtungsfaktoren etc.) 


Ganzzahlige Indexvariablen 
Zufallsvariablen 


Realisierungen von 
Zufallsvariablen 


Wahrscheinlichkeits- 
verteilungen 


Großbuchstaben, kursiv 


Großbuchstaben, kalligraphisch 


Kleinbuchstaben, kursiv 


Großbuchstaben, nicht-kursiv 


Großbuchstaben, kursiv 
Kleinbuchstaben, kursiv 


Griechische Kleinbuchstaben 


Kleinbuchstaben, kursiv 
Großbuchstaben, kursiv 


Kleinbuchstaben, kursiv 


Kleinbuchstaben, kursiv 


A,B,... 
A,B, ... 
F(X), 8%), «- 
F[ f(x)], ... 
B,C,... 
b,c... 

Os; Psi 


i,j, 
X,Y,... 


KYrie 


P(x), q(x), ... 


1x 


Notation 


Konventionen 


Die vorliegende Arbeit folgt der in der Bayes’schen Theorie üblichen Nota- 
tion, gemäß welcher i. A. nicht zwischen Zufallsvariablen und deren Reali- 
sierung unterschieden wird. Zufallsvariablen werden ausschließlich dann mit 
Großbuchstaben bezeichnet, wenn dies unabdingbar für die Darstellung ist, 
ansonsten werden sie wie ihre Realisierungen mit Kleinbuchstaben notiert. 


Es wird grundsätzlich angenommen, dass die betrachteten Zufallsvaria- 
blen diskret, absolut stetig oder gemischt diskret absolut stetig sind und 
durch geeignete Wahrscheinlichkeitsverteilungen (d. h. Wahrscheinlichkeits- 
funktionen, Wahrscheinlichkeitsdichtefunktionen, Mischungen derselben) 
beschrieben werden können (vgl. hierzu auch Abschnitt 3.2). Um unnöti- 
ge Fallunterscheidungen zu vermeiden, wird meist nur die kontinuierliche 
Schreibweise verwendet. 


Allgemeine Symbole 


Unendlich 


Proportional zu 


Y R 8 


Präferenzrelation 

o Äquivalenzrelation 

ek Faltung (zweidimensional) 

|| Kardinalität 

Kartesisches Produkt 

Logisches oder 

a € A bedeutet, dass a Element der Menge A ist. 
Leere Menge 


Vereinigung von Mengen 


> ca m < X 


Schnitt von Mengen 


Notation 


b' 
argmax 


argmin 


Differenz zweier Mengen 
Komplement einer Menge A 


Indikatorfunktion, d.h. es gilt 14(x) = 1, wenn 
x E A, und 1,4(x) = 0, wenn x € A. 


Transponierte, hier eines Vektors b 
Argument des Maximums 

Argument des Minimums 

Konstanten 

Zweidimensionale Einheitsmatrix 

Maximum einer Menge oder Funktion 
Minimum einer Menge oder Funktion 
Menge der natiirlichen Zahlen exklusive Null 


Funktionenklasse asymptotischer oberer Schranken 
(O-Kalkül): O(f(N)) := {g(N)| 3c > 0, No > 
0, VN > No, g(N) < c F(N) 


Menge der reellen Zahlen inklusive Null 


Menge der reellen Zahlen größer Null 


Wahrscheinlichkeitstheorie 


o-Algebra 

Spur-o-Algebra {A N BJA € A} von A in B für 
ØŁ#BCQA 

Borel’sche o-Algebra über R* 


Erwartungswert einer gemäß p(x) verteilten 
Zufallsvariablen x 


xi 


Notation 


Ep) fol 


hx(A) 


P(A) 
P(A|B) 


P(Q) 
P(x) 
p(xly) 


H(A) 


(Xt ten 


¢ 


xii 


Erwartungswert der Funktion f(x), wenn die 
Zufallsvariable x gemäß p(x) verteilt ist. 


Anzahl des Eintretens des Ereignisses A bei k 
Wiederholungen eines Zufallsexperiments 


Grundraum 
Elementarereignis aus Q 
Messbarer Raum 
Wahrscheinlichkeitsraum 


Kleinste o-Algebra (über einem bestimmten 
Grundraum), welche die im Argument angegebenen 
Mengen (hier: A und B) enthält. 


Kleinste o-Algebra (über einem bestimmten 
Produktraum), die alle Mengen der Form A x B mit 
A E A undB E B enthält. 


Wahrscheinlichkeitsmaß 
Wahrscheinlichkeit des Ereignisses A 


Bedingte Wahrscheinlichkeit des Ereignisses A 
gegeben das Ereignis B 


Potenzmenge von Q 
Wahrscheinlichkeitsverteilung der Zufallsvariablen x 


Bedingte Wahrscheinlichkeitsverteilung der 
Zufallsvariablen x gegeben die Zufallsvariable y 


Relative Häufigkeit des Ereignisses A bei k 
Wiederholungen eines Zufallsexperiments 


Zeitdiskreter stochastischer Prozess 


Abstrakte Notation für einen interessierenden 
Sachverhalt 


Notation 


Parametrische Verteilungsfamilien 


Cauchy-Verteilung 
Normalverteilung 


Gleichverteilung 


Statistische Inferenz 


d=(d,,...,ds)ED 
D = D; X ... X Ds 
D 

(D,D, {P;|z € Z}) 
do 


I(d|z) 


Informationsbeitrage 

Wertebereich der Informationsbeitrage 
o-Algebra über D 

Statistisches Experiment 


Im Hinblick auf z verfiigbares Vorwissen (wird nur in 
Ausnahmefallen explizit notiert) 


Informationsbeitrag von Quelle Nummer s 


Wertebereich des von Quelle Nummer s gelieferten 
Informationsbeitrags 


Information, welche im Hinblick auf ein bestimmtes 
Ereignis A vorliegt. 

Bei Anwendung des Prinzips der Maximalen Entropie 
bzw. des Prinzips der Minimalen Information zu 
berücksichtigende Information 


Analog zu I 


Likelihood-Funktion beziiglich d (fest) fiir z: 
I(d|z) = cg - p(d|z), wobei cg eine beliebige, jedoch 


für alle Werte von z gleich zu wählende Konstante ist. 


xiii 


Notation 


I(do|z) 


I(d,|z) 


l(d|z) 


l(ds|z) 


vi 


ip(d|z)|z € Z3 


p(d;|z) 


p(z) 
p(z|do) 


xiv 


Likelihood-Funktion, welche das verfügbare 
Vorwissen repräsentiert (bei entsprechender 
technischer Ummodellierung des Bayes’schen 
Modells). 


Analogon zu I(d|z) bei alleiniger Berücksichtigung 
des Informationsbeitrags d, 


Standardisierte Likelihood-Funktion bezüglich d 
(fest) für z, resultiert durch Skalierung von I(d|z) auf 
einen Maximalwert von Eins 


Analogon zu I,,(d|z) bei alleiniger Berücksichtigung 
des Informationsbeitrags d, 


i-tes Elements von Z, wenn Z unabhängig von der 
exakten Struktur als diskrete Menge aufgefasst wird 


Produktwahrscheinlichkeitsmaß bei einem 
Bayes’schen Experiment 


Für variables d: Wahrscheinlichkeitsverteilung von d 
Für festes d: Wahrscheinlichkeitsverteilung von d 
ausgewertet für den konkreten Wert 


Für festes z: Wahrscheinlichkeitsverteilung von d 
unter der Annahme, dass z der „wahre“ Wert der 
Größen des Interesses ist. 

Für festes d: bezüglich d normierte 
Likelihood-Funktion für z 


Mit der Festlegung der Likelihood-Funktion I(d|z) 
korrespondierende Verteilungsannahme 


Analogon zu p(d|Z) bei alleiniger Berücksichtigung 
des Informationsbeitrags d, 


A-Priori-Verteilung von z 


A-Priori-Verteilung von z in Fällen, in denen die 
Abhängigkeit vom Vorwissen dọ explizit betont 
werden soll. 


Notation 


p(zld) 


p(z|d,do) 


p(z,d) 


Pur(Z) 


Pmi(Z) 


S 


{Blz € Z} 


Pz 
F(A) 


v(e,Z) 


z=(Z1,..2n)EZ 


ZED SOT 


A-Posteriori-Verteilung von z nach Bekanntwerden 
von d 


A-Posteriori-Verteilung von z in Fällen, in denen die 
Abhängigkeit vom Vorwissen dọ explizit betont 
werden soll. 


Gemeinsame Wahrscheinlichkeitsverteilung von z 


und d 


Wahrscheinlichkeitsverteilung auf Z, welche aus der 
Anwendung des Prinzips der Maximalen Entropie 
resultiert. 


Wahrscheinlichkeitsverteilung auf Z, welche aus der 
Anwendung des Prinzips der Minimalen Information 
resultiert. 

Wahrscheinlichkeitsmaß über (D,D), wenn 
hinsichtlich d die Verteilungsklasse {p(d|z)|z € Z} 
angenommen wurde und z der „wahre“ Wert der 
Größen des Interesses ist. 

Menge von Wahrscheinlichkeitsmaßen über (D,D), 
welche mit der Likelihood-Funktion korrespondiert. 


Menge von Wahrscheinlichkeitsverteilungen über Z 


Wahrscheinlichkeit für das Ereignis A C D, wenn 
hinsichtlich d die Verteilungsklasse {p(d|z)|z € Z} 
angenommen wurde und z** der „wahre“ Wert der 
Größen des Interesses ist. 

Verlustfunktion: quantifiziert den mit der Auswahl 
eines Wertes e € Z verbundenen Verlust, wenn 
tatsächlich z der „wahre“ Wert der Größen des 
Interesses ist. 


Größen des Interesses 


Wertebereich der Größen des Interesses 


XV 


Notation 


N> 


zÒ 


Zu E€ Zn 

Zn 

(Z x D,o(Z x D), ID 
(Z,2,P) 


o-Algebra über Z 
Zwei konkrete mögliche Werte für z 
Schätzwert für den „wahren“ Wert von z 


i-tes erzeugtes Sample bei stochastischer Simulation 
im Hinblick auf die Zufallsvariable z 


n-te Größe des Interesses 
Wertebereich der n-ten Größe des Interesses 
Bayes’sches Experiment 


Mit der A-Priori-Verteilung korrespondierender 
Wahrscheinlichkeitsraum 


Lokale Bayes’sche Fusion 


ß,ß 


Cyt 
d(A) 


UCA), r(A)] 
\(d\U) 


o(A,B) 


0s(.) 


xvi 


In Abschnitt 7.2 hergeleitete untere Schranken für 
P(U|d) 


Argument eines lokalen Maximums von 0,(-) 
Lange des Wahrscheinlichkeitsintervalls fiir das 
Ereignis A 

Wahrscheinlichkeitsintervall fiir das Ereignis A 
Siehe Gleichung (5.30) 


(Lokale und globale) Posterior-Odds zweier 
Ereignisse A,B C U 

Quellenspezifischer Operator zur Vorauswertung des 
Informationsbeitrags ds 

Parameter, welcher zur Angabe der globalen 
(Maximum-Entropie) A-Posteriori-Verteilung gemäß 


Theorem 7.4 verwendet wird. 


Siehe Gleichung (5.29) 


Notation 


p(z|U) 
Puc, Eld) 
Puces,)(4lds) 


p(z|d,U) 


Pc(x) 


Pc(x|d) 


{Blz € U} 


{Plz € U} U {Po} 


Pins) 


U =U, x... Un 
U(es 4) 


UW 


Lokale A-Priori-Verteilung von z, wenn die lokale 
Bayes’sche Fusion eingeschrankt auf U erfolgt. 


Lokale A-Posteriori-Verteilung beziiglich des Anteils 
U(cs ,) von U 
Analogon zu pyc, ‚)(Z|d), wenn nur der 


Informationsbeitrag ds berücksichtigt wird. 


Lokale A-Posteriori-Verteilung von zZ, wenn die 
lokale Bayes’sche Fusion eingeschränkt auf U erfolgt. 


Wahrscheinlichkeitsverteilung über X := {U, U}, 
welche U gerade die Wahrscheinlichkeit P(U) 
zuweist. 


Wahrscheinlichkeitsverteilung über X := {U, U}, 
welche U gerade die Wahrscheinlichkeit P(U|d) 
zuweist. 


Wahrscheinlichkeitsmaß, welches so beschaffen ist, 
dass es die Wahrscheinlichkeit der Ereignisse A € D 
unter der Hypothese, dass z € U gilt, widerspiegelt. 


Menge von Wahrscheinlichkeitsmaßen über (D,D), 
welche bei Lokalität durch Einschränkung mit der 
Likelihood-Funktion korrespondiert. 


Menge von Wahrscheinlichkeitsmaßen über (D,D), 
welche bei Lokalität durch Vergröberung mit der 
Likelihood-Funktion korrespondiert. 


Faktor, anhand dessen Agent Nummer j; die 
Fusionsergebnisse von Agent Nummer jz zu seinen 
in Bezug setzen kann. 


Lokaler Kontext U C Z 


Mit der Spur c,,, korrespondierender Anteil des 
lokalen Kontexts U 


j-ter Bestandteil des lokalen Kontexts U 


xvii 


Notation 


V 


Alternativer lokaler Kontext V C Z, z.B. bei 
vergleichender Betrachtung 


Spur-o-Algebra von 2 in U 


Informationstheorie 


Fılg(zld)] 
F,[q(z|d)] 
HP] 


Ipc lA] 


Ino lA] 


JIx,y] 
KD[p(x),q(x)] 


Von Zellner formuliertes Funktional (vgl. 
Abschnitt 6.3.1) 


Von Walker formuliertes Funktional (vgl. 
Abschnitt 6.3.2) 


(Shannon’sche Entropie oder Boltzmann) Entropie 
von p(x) 

Maß für den Informationszuwachs im Hinblick auf 
die Zufallsvariable x, wenn der beziiglich dieser 
vorliegende Informationsstand durch die 
Wahrscheinlichkeitsverteilung p(x) beschrieben ist 
und die hier durch A notierte Information zusatzlich 
verfügbar wird. 


Alternative Definition von für I,(,)[A], welche der 
Vollständigkeit halber erwähnt wird. 


Transinformation der Zufallsvariablen x und y 


Kullback-Leibler-Divergenz von p(x) relativ zu q(x) 


Entscheidungen unter Risiko und unter 
(linearer) partieller Information 


Mögliche Aktion 
Menge der möglichen Aktionen 


Notation 


Aopt 


Ew, [urr(a,v;)] 
Ey [urr(a,v;)] 


LF 


Iw „[urr(a,v)] 


Urr(a,v;) 


Zwei konkrete mögliche Aktionen 
Aktion Nummer i 


Optimale Aktion, welche den a posteriori erwarteten 
Nutzen maximiert. 


Maximaler Wert für den erwarteten Nutzen 


E,[uır(a,v;)] der Aktion a, wenn y; eine Verteilung 
p € Wy, besitzt. 


Minimaler Wert für den erwarteten Nutzen 
E [u,r(a,v;)] der Aktion a, wenn y; eine Verteilung 
p E Wır besitzt. 


Intervall für den erwarteten Nutzen E„[u;r(a,v;)] der 
Aktion a, wenn y; eine Verteilung p € Wır besitzt. 


i-te Komponente des Vektors p, welcher eine diskrete 
Wahrscheinlichkeitsverteilung beschreibt. 

Regret der Aktion a 

Aus den lokalen Berechnungen sich ergebender Wert 
für den Regret der Aktion a 


Nutzenfunktion: quantifiziert den aus der Auswahl 
einer Aktion a € A resultierenden Nutzen, wenn 
tatsächlich z der „wahre“ Wert der Größen des 
Interesses ist. 

Nutzenfunktion bei Abbildung des auf Basis des 
Ergebnisses der lokalen Bayes’schen Fusion zu 
lösenden Entscheidungsproblems auf ein 
Entscheidungsproblem unter linearer partieller 
Information 

Menge der Ecken von W 

Menge der Ecken von Wir 


Element (Punkt) aus W 


xix 


Notation 


XX 


Teilgebiet des Verteilungssimplex [0,1]* 
W stellt im betrachteten Fall linearer partieller 
Information ein konvexes Polyeder dar. 


Teilgebiet des Verteilungssimplex [0,1]+! bei 
Abbildung des auf Basis des Ergebnisses der lokalen 
Bayes’schen Fusion zu lösenden 
Entscheidungsproblems auf ein 
Entscheidungsproblem unter linearer partieller 
Information 

W stellt im betrachteten Fall linearer partieller 
Information ein konvexes Polyeder dar. 


Element (Punkt) aus V(W), welches eine lineare, 
reellwertige Funktion über W maximiert. 


Element (Punkt) aus V(W), welches eine lineare, 
reellwertige Funktion über W minimiert. 


Menge {n}, ... ‚Um »’m +13, durch die Z bei Abbildung 
des auf Basis des Ergebnisses der lokalen Bayes’schen 
Fusion zu lösenden Entscheidungsproblems auf ein 
Entscheidungsproblem unter linearer partieller 
Information ersetzt wird. 


1 Einleitung 


1.1 Motivation 


Die Lösung diverser Aufgabenstellungen aus unterschiedlichsten Anwen- 
dungsbereichen profitiert von der Informationsfusion oder setzt diese sogar 
voraus, da sich nur so eine ausreichend hochwertige Informationsgrundlage 
schaffen lässt. Als Beispiele für konkrete Anwendungen der Informations- 
fusion seien Veröffentlichungen aus den Bereichen Sichtprüfung [Hei08, 
Mey18], Aufklärung und Überwachung [Bou16, Koc05, Bou17, Kuw18], Fah- 
rerassistenz [Kuk18, Stü04], Messtechnik [Som09], Robotik [Bel15, Inc19] und 
Medizin [Jam17] angeführt. Die zu fusionierenden Informationsbeiträge kön- 
nen sich in vielerlei Hinsicht unterscheiden, z. B. in ihrem Informationsgehalt, 
in der Natur der zugrundeliegenden, z.B. physikalischen (Mess-)Größen, in 
ihrem Abstraktionsgrad oder in ihrer Formalisierung. Die Fusion der Beiträ- 
ge heterogener Informationsquellen bietet oftmals besonderes Potential, da 
diese sich grob gesagt aufgrund unterschiedlicher Stärken und Schwächen 
besonders gut gegenseitig ergänzen können. 


Wie in der Fachliteratur immer wieder betont wird, hat die (maschinelle) In- 
formationsfusion ihr Vorbild in der realen Welt (siehe z.B. [Das97], [Hal97], 
[Kha09], [Koc14] und [Mac10]). Mittels ihrer kognitiven Fähigkeiten können 
Menschen und andere Lebewesen in vielen Fällen auf eine bis heute maschi- 
nell nicht vollständig nachahmbare, effiziente Weise unterschiedliche Infor- 
mationsbeiträge fusionieren. Diese Fähigkeit ist eine wesentliche Vorausset- 
zung dafür, dass sie in der Lage sind, ihre Umwelt ausreichend genau, ausrei- 
chend schnell und in einer konsistenten Weise zu erfassen. 
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Die kognitiven Fähigkeiten des Menschen erlauben es ihm in der Regel, auch 
beim Vorliegen heterogener Informationsbeiträge recht mühelos die aufga- 
benrelevanten Aspekte aus diesen zu extrahieren, in Bezug zu setzen, zu ei- 
nem nützlichen Resultat zu kombinieren und darauf basierend letztlich fun- 
dierte Entscheidungen zu treffen. Gerade in Zeiten von Big Data stehen Da- 
ten und Information jedoch oft in großen Mengen zur Verfügung. In sol- 
chen Situationen ist der Mensch dann schnell überfordert (vgl. z.B. [Bos07a]). 
Dies gilt auch insbesondere, wenn das Ergebnis innerhalb eines vorgegebenen 
Zeitrahmens benötigt wird oder wenn kritische Entscheidungen zu treffen 
sind (vgl. z.B. auch [Aki02], [Cum05] und [Koc14)). 


Heutige IT-Systeme besitzen dagegen die Leistungsfähigkeit, auch umfang- 
reiche Daten- und Informationsbestände zeitnah zu überschauen und in kon- 
trollierter Weise zu verarbeiten. Maschinell umsetzbare Modelle und Verfah- 
ren, die IT-Systeme und -Anwendungen in die Lage versetzen, gerade auch 
mit Daten und Information von heterogener Natur dem Menschen ähnlich in 
„kognitiver“ Weise umzugehen, d.h. sie zu erschließen, zu formalisieren, zu 
kombinieren und letztlich bestmöglich für die Lösung einer konkreten Auf- 
gabenstellung nutzbar zu machen, besitzen deshalb ein hohes Potential. Hier 
mangelt es vor allem aber noch an adäquaten Werkzeugen für die Fusion syn- 
taktisch inkompatibler Informationsbeiträge. Auch bedarf es passend ausge- 
stalteter Mensch-Maschine-Schnittstellen, oftmals auch zur Umsetzung inter- 
aktiver Assistenzsysteme (vgl. z.B. [Bla08], [Bos07a] und [Sch06)]). 


Als Basis hierfür notwendig sind mathematische Modelle und Verfahren, um 
unterschiedliche Informationsbeiträge in geeigneter Weise in eine einheitli- 
che formale Beschreibung zu überführen und sie anschließend zu kombinie- 
ren. Dabei muss es methodisch gesehen auch möglich sein, das Fusionser- 
gebnis auf spezielle Einzelfragestellungen zu konzentrieren und es müssen 
in fundierter und für den Nutzer auch verständlicher Weise Entscheidun- 
gen von ihm ableitbar sein. Die Modelle und Verfahren müssen in Software- 
und Systemarchitekturen sowie in praxisgerechte Algorithmen und Software- 
Anwendungen umsetzbar sein. Von besonderer Relevanz ist dabei oftmals 
auch die Skalierbarkeit der Algorithmen bzgl. Rechen- und Speicherbedarf, 
insbesondere dann, wenn die verfügbaren Ressourcen deutlich begrenzt sind, 
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z.B. im Fall mobiler Roboter oder beim Vorliegen von Bandbreitenbeschrän- 
kungen in Netzwerken. Auch sollte eine modulare Erweiterbarkeit in Bezug 
auf neue Aufgaben- bzw. Fragestellungen sowie in Bezug auf das Verfügbar- 
werden zusätzlicher, auch neuartiger Informationsquellen gegeben sein. 


Die Welt der Zukunft ist zunehmend digitalisiert und vernetzt. Moderne Kom- 
munikationstechnologien können die Verteilung von Daten und Information 
in (nahezu) Echtzeit ermöglichen und so die technische Basis schaffen, um Or- 
ganisationen, Systeme und deren Fähigkeiten über Zeit und Raum zu vernet- 
zen. Die technologische Entwicklung in Bezug auf Sensoren und Plattformen, 
Datenbanken etc. sowie Netzwerktechnik haben sich zudem in den vergange- 
nen Jahren rasant entwickelt und auch große Mengen an Daten können heu- 
te vom technischen Standpunkt aus gesehen oft unkompliziert geteilt werden. 
Um die sich hieraus ergebenden Möglichkeiten nutzen zu können, besteht ein 
Bedarf an Systemen bzw. Systemverbünden, die in einer definierten Weise in- 
teroperabel miteinander interagieren können. Basis für deren Erstellung sind 
die Fähigkeit zum übergreifenden Daten- und Informationsaustausch, gegebe- 
nenfalls auch unter hoher Zeitkritikalität, auf Basis kompatibler Schnittstellen 
und die Fähigkeit, die Daten und Information im Verbund korrekt zu inter- 
pretieren, zu verarbeiten, sie insbesondere auch zu fusionieren und dem Nut- 
zer seiner Rolle bzw. Funktion entsprechend bedarfsgerecht zur Verfügung zu 
stellen. Aktuelle Beispiele für den Bedarf an intelligenten Softwaresystemen 
und Systemverbünden, die die Wertschöpfung von Information und die Um- 
setzung von Geschäftsprozessen auch über System- und Organisationsgren- 
zen unterstützen, ergeben sich z.B. aus der Notwendigkeit zur organisations- 
und oft auch grenzüberschreitenden Zusammenarbeit zum Schutz der Sicher- 
heit einer Nation [Cat17, Ess18a, Zas16] sowie zur Krisenfrüherkennung und 
zum Krisenmanagement [Ess19, Kuw19, Rot16]. 


Die IT-gestützte Fusion von sensoriell erfassten Daten, in Datenbanken vorge- 
haltenen Datenbeständen, kollateral vorliegender Information, Kontext- und 
Hintergrundwissen etc. stellt insgesamt gesehen eine interdisziplinäre wis- 
senschaftliche Herausforderung dar, welche noch nicht als vollständig gelöst 
betrachtet werden kann. Das Forschungsgebiet der Informationsfusion mu- 
tet oftmals auch recht divers und herausfordernd an, was vor allem einerseits 
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an der Vielfalt der adressierten Aufgabenstellungen und andererseits an der 
Vielfalt der zur Problemlösung angewandten, auch interdisziplinären Ansät- 
ze liegt (vgl. [Hal04] und [Kla99]). Die Anfänge dieses Forschungsgebiets lie- 
gen im militärischen Kontext, was sich u.a. darin widerspiegelt, dass wichti- 
ge Grundlagenliteratur von Anwendungen aus dem Bereich der militärischen 
Aufklärung geprägt ist. 


Qualitative Verfahren (z.B. logik- oder regelbasierte Verfahren) erlauben 
es oftmals, Daten und Information in effektiver Weise gemäß vordefinierter 
Axiome und Regeln zielgerichtet zu verdichten sowie sie zu neuer Information 
zu verarbeiten. Die Repräsentation vorliegender Kontext- und Hintergrund- 
information mittels formaler Wissensmodelle (z.B. Ontologien) ermöglicht 
es dabei auch, die Daten und Information gemeinsam in einen semanti- 
schen Zusammenhang einzuordnen (vgl. z.B. [Sch06]). Eine grundlegende 
Anforderung in vielen Anwendungen der Informationsfusion ist darüber 
hinaus aber auch die Möglichkeit zur Modellierung der Informationsquellen 
bzw. der von ihnen gelieferten Informationsbeiträge im Hinblick auf die 
mit diesen korrespondierenden Unsicherheiten und die Propagation dieser 
Unsicherheiten durch den Fusions- sowie ggf. auch einen anschließenden 
Entscheidungsprozess. Vgl. hierzu z.B. auch [Das08] und [Kuw18]. 


Wichtige im Bereich der Informationsfusion eingesetzte quantitative Ver- 
fahren beruhen u.a. auf der Bayes’schen Theorie, der klassischen Statistik, 
der Dempster-Shafer-Theorie, der Fuzzy-Iheorie und der Theorie neuronaler 
Netze (siehe z.B. [Kha09], [Kle04], [Men20], [Mit07]). Mindestens für die 
meisten anwendungsbezogenen Aufgabenstellungen stellt der Verzicht auf 
eine Unterscheidung von Unsicherheiten hinsichtlich ihrer Natur (Inde- 
terminismus, Ungenauigkeit, Unwissenheit, Unschärfe, etc.) eine sinnvolle 
pragmatische Vorgehensweise dar (vgl. [Bey07]). In diesem Fall liefert die 
Bayes’sche Theorie oftmals ausreichend mächtige Werkzeuge zur Repräsenta- 
tion von Unsicherheiten und letztlich zur Umsetzung der Informationsfusion 
auf Basis Bayes’scher Inferenz. Der Informationsstand in Bezug auf alle in 
eine Fusionsaufgabe involvierten Größen wird dabei probabilistisch mittels 
Wahrscheinlichkeitsverteilungen in der sog. Degree-of-Belief-Interpretation 
von Wahrscheinlichkeit repräsentiert. Zusätzlich vorhandenes Vorwissen 
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wird durch die A-Priori-Verteilung verkörpert und kann dadurch vollständig 
und in adäquater Weise zusammen mit den von den Informationsquellen 
gelieferten Informationsbeiträgen in die Lösung der Fusionsaufgabe ein- 
gehen. Die Kombination der unterschiedlichen Anteile erfolgt durch die 
Anwendung des Satzes von Bayes, welcher als vollständiges Fusionsresultat 
die A-Posteriori-Verteilung liefert. Basierend auf dieser lassen sich dann 
auch spezielle Einzelfragestellungen beantworten und insbesondere auch 
Entscheidungen ableiten. 


Wie im Verlauf der vorliegenden Arbeit noch genauer dargestellt werden 
wird, ist die Bayes’sche Fusionsmethodik äußerst fundiert und erfüllt alle 
essentiellen Anforderungen an eine sinnvolle Methodik zur Fusion der Bei- 
träge heterogener Informationsquellen. Die weitreichende Interpretation von 
Wahrscheinlichkeit als Degree-of-Belief, welche zudem oftmals dem intuiti- 
ven Verständnis von Unsicherheit entspricht, das gerade auch nicht speziell 
geschulte Personen mitbringen, eröffnet ihr ein breites Anwendungsspek- 
trum. Nicht zuletzt ergibt sich dadurch auch ein durchgängiges Konzept, um 
mittels Bayes’scher Verfahren Daten und Information unter Berücksichtigung 
der korrespondierenden Unsicherheiten konsistent weiter zu propagieren 
(z.B. gerade auch durch die verschiedenen Ebenen des JDL Fusionsmodells), 
sowie zur Umsetzung brauchbarer Mensch-Maschine-Schnittstellen. 


In praktisch relevanten Aufgabenstellungen der Informationsfusion ist jedoch 
der Zielgrößenraum, d. h. der Wertebereich der Größen des Interesses, welche 
letztlich den im Rahmen der Fusion interessierenden Sachverhalt mathema- 
tisch fassen, oft sehr umfangreich und von recht hoher Dimension. In solchen 
Situationen verursachen Bayes’sche Verfahren in der Regel hohe, in der Pra- 
xis oftmals nicht tragbare Rechenzeiten und immensen Speicherbedarf. Dies 
begründet sich vor allem aus der Tatsache, dass gemäß dem Bayes’schen For- 
malismus im Rahmen der Fusion immer die komplette A-Posteriori-Verteilung 
über dem gesamten Wertebereich der Größen des Interesses berechnet wer- 
den muss. Diese verkörpert gerade den sich durch die Fusion im Hinblick auf 
die Größen des Interesses ergebenden vollständigen Informationsstand. 
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1.2 Zielsetzung 


Die vorliegende Arbeit führt neue Ansätze zur Bewältigung Bayes’scher Fusi- 
on beim Vorliegen eines umfangreichen, ggf. hochdimensionalen Zielgrößen- 
raums ein. Diese werden unter dem Oberbegriff der lokalen Bayes’schen Fusi- 
on zusammengefasst. Das primäre Ziel der Arbeit besteht darin, diese Ansät- 
ze formal mathematisch zu formulieren und sie grundlegend zu untersuchen, 
insbesondere im Hinblick auf ihre Umsetzbarkeit gerade auch für die Fusi- 
on der Beiträge heterogener Informationsquellen, ihre Ausdrucksstärke und 
letztlich ihre Fähigkeit, die Beantwortung von im Rahmen der Informations- 
fusion vorliegenden Fragestellungen in ausreichender Form zu ermöglichen. 


Der Grundgedanke lokaler Bayes’scher Fusionsansätze leitet sich daraus ab, 
dass in vielen Aufgabenstellungen der Informationsfusion der durch die A- 
Posteriori-Verteilung in probabilistischer Weise verkörperte vollständige, d.h. 
maximal umfassende Informationsstand im Hinblick auf die Größen des In- 
teresses eigentlich gar nicht benötigt wird. Vielmehr müssen auf Basis des 
sich a posteriori ergebenden Informationsstands Antworten auf bestimmte, 
z.B. für einen Entscheidungsträger relevante Fragestellungen geliefert wer- 
den. Beispiele für derartige Fragestellungen sind die Bestimmung einer Schät- 
zung für den tatsächlich vorliegenden Wert der Größen des Interesses oder die 
bestmögliche Auswahl einer Handlungsoption. Die vollständige A-Posteriori- 
Verteilung ist in solchen Fällen also letztlich, d. h. als eigentliche Antwort auf 
diese Fragen, gar nicht nötig. Sie stellt vielmehr nur die Basis zur Ableitung 
der Antworten dar. 


Das Ziel lokaler Bayes’scher Fusion ist es dementsprechend, die Bayes’sche 
Fusion möglichst konzentriert auf die Anteile des Wertebereichs der Größen 
des Interesses durchzuführen, in denen sich tatsächlich Aufgabenrelevantes 
abspielt - in dem Sinne, dass eine detaillierte Betrachtung dieser Anteile des 
Zielgrößenraums tatsächlich notwendig ist zur Beantwortung der eigentli- 
chen Fragen. Letztlich soll es durch die lokale Bayes’sche Fusion also ermög- 
licht werden, diese Fragen auf Basis einer nur teilweisen Bestimmung der A- 
Posteriori-Verteilung zu beantworten und ihre vollständige Berechnung da- 
mit zu umgehen. 
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Zur Präzisierung der Idee, einen derartigen lokalen Standpunkt bei der 
Bayes’schen Fusion umzusetzen, wurde in [Bey06a] eine Analogie zwischen 
lokaler Bayes’scher Fusion und kriminalistischen Ermittlungen zur Aufklä- 
rung eines Verbrechens hergestellt, also zu einem etablierten Prozess der 
realen Welt. Diese inspirierte wiederum das Konzept für eine agentenbasierte 
Fusionsarchitektur, in der unterschiedliche Agenten in kooperativer Weise 
Spuren im Hinblick auf den tatsächlich vorliegenden („wahren“) Wert der 
Größen des Interesses in den Informationsbeiträgen identifizieren, auswerten 
sowie die damit korrespondierenden Hypothesen durch Fusion lokal im 
Wertebereich der Größen des Interesses weiterentwickeln und letztlich zur 
Zusammenschau bereitstellen. 


In der Arbeit wird angestrebt, die mathematische Basis für die lokale 
Bayes’sche Fusion derart auszugestalten, dass eine verteilte Realisierung 
lokaler Bayes’scher Fusion wiederum gerade eine natürliche Entsprechung 
in der agentenbasierten Fusionsarchitektur hat. Die softwaretechnische Um- 
setzung der agentenbasierten Fusionsarchitektur stellt dabei kein Thema der 
Arbeit dar. 


Der erste Schritt zur Lösung eines Fusionsproblems ist letztlich dessen forma- 
le Modellierung. Zur Ermöglichung der Zielsetzung, dass die Bayes’sche Fu- 
sion wie beschrieben möglichst konzentriert auf bestimmte Anteile des Ziel- 
größenraums erfolgen soll, bedarf es der Formalisierung lokaler Bayes’scher 
Modelle. Diese müssen die probabilistische Repräsentation und auch die Wei- 
terentwicklung lokaler Informationsstände im Hinblick auf die Größen des 
Interesses auf Basis Bayes’scher Inferenz in fundierter Weise ermöglichen. 


Um die lokalen Bayes’schen Modelle sinnvoll festlegen zu können, d.h. um 
letztlich die Frage beantworten zu können, welche Anteile des Zielgrößen- 
raums im beschriebenen Sinne aufgabenrelevant sind, bedarf es möglichst 
aussagekräftiger Kriterien im Hinblick auf die Festlegung des diese umfas- 
senden lokalen Kontexts. Auch sollten Prinzipien und Methoden bereitste- 
hen, auf deren Basis man die Adäquatheit des lokalen Kontexts vorab, d.h. 
vor Durchführung der Fusion, und möglichst auch ohne vollständige Kennt- 
nis des globalen Bayes’schen Modells wenigstens in einem Mindestmaß auch 
quantitativ bewerten kann. 
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Wird die vollständige Bestimmung der A-Posteriori-Verteilung bei der loka- 
len Bayes’schen Fusion wie beschrieben umgangen, so ist nach Durchführung 
der Fusion nur ein lokaler (partieller) Informationsstand im Hinblick auf die 
Größen des Interesses verfügbar. Es muss die Möglichkeit gegeben sein, die 
lokal vorliegende Information in aufgabengerechter Weise und unter Berück- 
sichtigung der im Hinblick auf die Bildung des lokalen Kontexts vorhandenen 
(Zusatz)information in objektiver Weise in den eigentlichen, globalen Zusam- 
menhang einzuordnen und darauf basierend auch weiterführende Entschei- 
dungen treffen zu können. 


1.3 Aufbau der Arbeit 


Die eigentliche Arbeit beginnt in Kapitel 2 mit einer Aufarbeitung zentraler 
Aspekte im Hinblick auf den Stand der Wissenschaft und Technik zum For- 
schungsgebiet Informationsfusion. Die vorgenommene Darstellung hat vor 
allem auch das Ziel, einen strukturierenden Überblick über dieses oftmals di- 
vers anmutende Forschungsgebiet zu schaffen. Im Zuge dieser Aufarbeitung 
des Stands der Wissenschaft und Technik werden dann zentrale Begrifflich- 
keiten im Hinblick auf die Informationsfusion abgeleitet und es wird dediziert 
auf die Frage nach den Anforderungen, welche eine sinnvolle Methodik zur 
Fusion von Informationsbeiträgen heterogener Quellen erfüllen muss, einge- 
gangen. Ein besonders Augenmerk in diesem Kapitel wird auch auf die Um- 
setzung der Informationsfusion in Verbünden gelegt. 


In Kapitel 3 werden für die Arbeit wesentliche Grundlagen im Hinblick auf 
die Bayes’sche Fusion erschlossen. Vorbereitend für den weiteren Verlauf der 
Arbeit wird dabei zuerst einmal ein allgemeinerer Zusammenhang zwischen 
der Informationsfusion und der induktiven Statistik hergestellt, auf dessen 
Basis dann unterschiedliche Inferenzkonzepte eingeführt und im Hinblick auf 
den Anwendungskontext der Informationsfusion eingeordnet werden. Im An- 
schluss daran wird detaillierter auf die Bayes’sche Fusionsmethodik einge- 
gangen. Hier werden dann insbesondere auch etablierte Mechanismen einge- 
führt, anhand derer die Bayess’sche Fusionsmethodik den essentiellen Anfor- 
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derungen an eine sinnvolle Fusionsmethodik zur Fusion von Informationsbei- 
trägen heterogener Quellen nachzukommen vermag. 


Kapitel 4 adressiert speziell die Herausforderungen, welche sich bei der 
Bayes’schen Fusion im Hinblick auf die Durchführung der notwendigen 
Berechnungen ergeben. In diesem Kapitel wird im Rahmen eines Exkurses 
ein komprimierter Überblick über die wesentlichen in der Fachliteratur 
vorhanden Ansätze zur Bewältigung des oft hohen Aufwands Bayes’scher 
Inferenz vorgenommen. Im Anschluss an diese Darstellung und Diskussion 
des Stands der Wissenschaft und Technik im Hinblick auf die Berechnung der 
A-Posteriori-Verteilung bzw. von Kenngrößen derselben werden das Konzept 
für die agentenbasierte Fusionsarchitektur und dessen Bezugspunkte in Form 
der Analogie zwischen lokaler Bayes’scher Fusion und kriminalistischen Er- 
mittlungen zur Aufklärung eines Verbrechens sowie wesentliche Grundlagen 
zur Agententheorie dargestellt und diskutiert. 


Aus theoretischer Hinsicht bedarf es zur genaueren Entwicklung lokaler 
Bayes’scher Fusionsansätze einer Anpassung der Bayes’schen Fusionsmetho- 
dik an lokale Betrachtungen. Die notwendigen mathematischen Grund- 
lagen hierfür werden in Kapitel 5 erarbeitet. Hier werden die benötigten 
lokalen Bayes’schen Modelle, welche gerade die Repräsentation und Pro- 
pagation lokaler Informationsstände ermöglichen, konzipiert, formalisiert 
und ausführlich analysiert. Adressiert wird auch die Ausgestaltung dieser 
Modelle für den Fall, dass die lokale Bayes’sche Fusion kooperativ durch 
unterschiedliche Agenten, welche jeweils lokale Informationsstände in Bezug 
auf unterschiedliche Anteile des lokalen Kontexts besitzen, vorgenommen 
wird. Die so insgesamt formulierten lokalen Bayes’schen Modelle sind aus 
mathematischer Hinsicht valide, was unabdingbar dafür ist, dass die bei der 
lokalen Bayes’schen Fusion anvisierte Einnahme eines lokalen Standpunkts 
konsistent in den Bayes’schen Kalkül integrierbar ist. Ergänzend und in 
gewissem Sinne auch komplementär zum Vorangegangenen werden weiter 
auf Basis einer vereinfachten, in Teilen heuristischen Vorgehensweise aus- 
gewählte Teilaspekte im Hinblick auf die lokale Bayes’sche Fusion anhand 
eines ausführlicheren, möglichst anwendungsnahen Beispiels umgesetzt und 
untersucht. 


1 Einleitung 


Kapitel 6 behandelt die Frage, was aus mathematischer Hinsicht sinnvolle Vor- 
gehensweisen zur Festlegung eines lokalen Kontexts sind und wie sich die 
Güte lokaler Bayes’scher Modelle generell in Abhängigkeit von der Wahl des 
lokalen Kontexts bewerten lässt. Hierzu werden zum einen Prinzipien aus dem 
Kontext der Likelihood-Inferenz und zum anderen Ansätze aus dem Kontext 
der Informationstheorie aufgegriffen, für die lokale Bayes’sche Fusion ange- 
wandt und zueinander in Bezug gesetzt. Der Fokus der Untersuchungen liegt 
dabei vor allem auf einem Ansatz zur lokalen Bayes’schen Fusion, welcher ei- 
ne vollständige Einschränkung des probabilistischen Modells auf den lokalen 
Kontext vornimmt und im vorangegangenen Kapitel als besonders vielver- 
sprechend für die lokale Bayes’sche Fusion heterogener Informationsquellen 
identifiziert wurde. 


Die aus der lokalen Bayes’schen Fusion resultierende lokale A-Posteriori- 
Verteilung stellt partielle Information im Hinblick auf die globale A- 
Posteriori-Verteilung dar. In Kapitel 7 wird im Hinblick auf den Ansatz 
zur lokalen Bayes’schen Fusion, welcher eine vollständige Einschränkung 
des probabilistischen Modells auf den lokalen Kontext vornimmt, unter- 
sucht, wie sich das in Form der lokalen A-Posteriori-Verteilung vorliegende 
lokale Fusionsresultat auf Basis dieses Gedankens und unter zusätzlicher 
Verwendung von Information darüber, wie der lokale Kontext gebildet wur- 
de, expliziter in Bezug zum in Form der globalen A-Posteriori-Verteilung 
resultierenden Output der globalen Bayes’schen Fusion setzen und auf dieser 
Basis auch zur Ableitung weiterführender Entscheidungen nutzen lässt. 
Hierzu wird ein Wahrscheinlichkeitsintervall-Schema formuliert, anhand 
dessen sich lokale und globale A-Posteriori-Wahrscheinlichkeiten genauer 
in Beziehung setzen lassen. Weiter werden Möglichkeiten zur Ausweitung 
der lokalen A-Posteriori-Verteilung auf eine eindeutige globale A-Posteriori- 
Verteilung und zur direkten Einbringung der partiellen Information in eine 
nachfolgende Entscheidungsfindung erarbeitet und in Bezug auf Kernaspekte 
diskutiert. 


Die Arbeit schließt in Kapitel 8 mit Zusammenfassung und Ausblick. 


In Bezug auf die vorliegende Arbeit ist der Stand der Wissenschaft und Tech- 
nik zu weiteren Themengebieten als den oben genannten relevant und be- 
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1.3 Aufbau der Arbeit 


stimmte Punkte müssen partiell auch vertieft betrachtet werden. Diese Dar- 
stellung erfolgt der Übersichtlichkeit halber jeweils ergänzend in den Kapi- 
teln, wo die Anteile auch benötigt werden. 


Im Hinblick auf die praktische Umsetzung ergab sich für die vorliegende Ar- 
beit die Herausforderung, dass die Umsetzung eines Anwendungsbeispiels, 
das ein ausreichend hohes Maß an Komplexität aufweist, um die im Rahmen 
der Arbeit erarbeiteten Beiträge vollständig adäquat abzubilden, weder mit 
vertretbarem Aufwand noch tatsächlich vollständig wirklichkeitsgetreu rea- 
lisierbar war. Aus diesen Gründen wurde entschieden, die Ergebnisse vor al- 
lem anhand illustrativer, dafür aber auch nachvollziehbarer „kleiner“ Beispie- 
le in den jeweiligen Abschnitten darzustellen. Das in Abschnitt 5.3 adressierte, 
recht ausführliche Beispiel stellt zumindest in gewissem Sinne eine Ausnah- 
me hiervon dar. Dieses Beispiel schien notwendig, da es trotz einer (notwen- 
digerweise) nicht vollständigen Realitätstreue und einer vereinfachten und in 
Teilen auch heuristischen Umsetzung der lokalen Bayes’schen Fusion weitere 
relevante Erkenntnisse für die vorliegende Arbeit liefert, welche die aus den 
theoretischen Untersuchungen resultierenden Erkenntnisse komplettieren. 
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2 Informationsfusion 


2.1 Grundprinzip 


In [Hal04] wird die Informationsfusion äußerst treffend charakterisiert als „a 
discipline [...] to solve a diverse set of problems having common characte- 
ristics“. Diese gemeinsamen Charakteristiken ergeben sich direkt aus dem 
Grundprinzip der Informationsfusion. Dieses ist in Abb. 2.1 illustriert und 
wird im vorliegenden Abschnitt ausführlich erläutert. 


Information von höherer Qualität 


Informationsfusion 


a HERE 


Informätionsverlust 


p 


Sachverhalt von Interesse 


Abbildung 2.1: Grundprinzip der Informationsfusion. Abbildung angelehnt an [San10b]. 
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2 Informationsfusion 


Ein Maß für Information stellt die durch ihr Hinzukommen beseitigte Un- 
gewissheit dar’ [Bey07]. Der Begriff Ungewissheit ist dabei zu verstehen im 
Sinne von Unsicherheit in Bezug auf den in einer konkreten Aufgabenstel- 
lung interessierenden Sachverhalt. Die Erfassung des interessierenden Sach- 
verhalts durch eine Informationsquelle geht i. A. mit einem Informationsver- 
lust bzw. komplementär gesprochen mit einer Zunahme an Unsicherheit ein- 
her. Beispielsweise können Teile der zur Lösung der zugrundeliegenden Auf- 
gabenstellung benötigten Nutzinformation ungenauer werden oder gänzlich 
verloren gehen. 


Dieses Phänomen lässt sich in Anlehnung an [Das97] sehr anschaulich dar- 
stellen, indem man Informationsquellen mit spezifisch ausgeprägten Fens- 
tern in die Welt vergleicht. Die konkrete Ausprägung dieser Fenster sowie 
der Kontext, innerhalb dessen die Informationserfassung geschieht, entschei- 
den darüber, welche Information in welcher Qualität? erfasst wird. Zum Bei- 
spiel erfasst ein physikalischer Sensor entsprechend seiner Konstruktions- 
prinzipien gerade bestimmte physikalische Eigenschaften der Umwelt wie 
z.B. akustische oder elektromagnetische Wellen und sowohl die Sensorgü- 
te als auch auch die beim Einsatz des Sensors vorliegenden Rahmenbedin- 
gungen (z.B. Umgebungskonditionen wie Wetterbedingungen) beeinflussen 
weiter die Qualität der erfassten Information. 


Erfolgt die Informationserfassung mittels einer (digitalen) sensoriellen Infor- 
mationsquelle, so sind oftmals insbesondere folgende Aspekte im Hinblick auf 
den Informationsverlust relevant (vgl. [Hei08] und [San10b]): 


« Fensterung: Die Informationsquelle erfasst nur einen begrenzten 
Ausschnitt des interessierenden Sachverhalts. Liefert die Informa- 
tionsquelle z.B. Bildinformation in Form von Einzelbildern oder 
Videos, so wäre dieser Ausschnitt zeitlich, örtlich und/oder spek- 
tral zu sehen. 


* Siehe [Bey99] für eine informationstheoretische Begründung dieses Sachverhalts. 

2 Der Begriff Informationsqualität lässt sich dabei gemäß [Gil10] auffassen als „measure of how 
well a piece of information delivered to a user describes a situation or event of interest to that 
the user“ 
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2.1 Grundprinzip 


e Projektion: Die Erfassung durch die Informationsquelle geht mit 
einer Projektion einher. Beispielsweise liefert ein herkömmlicher 
bildgebender Sensor ein zweidimensionales Bild der dreidimensio- 
nalen Realität. 


e Diskretisierung: Es erfolgt eine Zeit- und/oder Ortsdiskretisierung 
(Abtastung), z.B. im Pixelraster bei Bildern und bei Videos noch 
zusätzlich mit der Bildwiederholfrequenz. Weiter erfolgt eine Wer- 
tequantisierung, z.B. könnte im Fall eines bildgebenden Sensors 
dieser ein Grauwertbild mit 8 Bit liefern, welches 256 Grauwerte 


abbilden kann. 


e Störungen beim Erfassungsvorgang: Beispielsweise verursacht das 
thermische Rauschen eines Sensorchips eine entsprechende nicht- 
deterministische Störung. 


Erfolgt die Informationserfassung durch eine nicht sensorielle Informations- 
quelle, so könnten z.B. folgende Aspekte relevant sein: 


e Unschärfe der Beschreibung: Beispielsweise könnte ein mensch- 
licher Beobachter einer Szene melden, dass sich ein bestimmtes 
Objekt darin „schnell“ bewegt, ohne die exakte Objektgeschwin- 
digkeit angeben zu können. 


e Unzuverlässigkeit bzw. mangelnde Glaubwürdigkeit: Beispiels- 
weise könnte eine menschliche Informationsquelle bewusst oder 
unbewusst Fehlinformation liefern oder die Einträge in einer 
Datenbank könnten mutwillig manipuliert, fehlerhaft erfasst oder 
veraltet sein. 


e Fokussierung auf bestimmte Aspekte: Beispielsweise könnte eine 
Datenbank nur Information in Bezug auf bestimmte Attribute ei- 
nes interessierenden Objekts vorhalten. 


Durch die Fusion der Beiträge unterschiedlicher Informationsquellen lässt 
sich die in Bezug auf den interessierenden Sachverhalt vorherrschende Unsi- 
cherheit gezielt reduzieren. Dies kann sogar bedeuten, dass neue Information 
verfügbar wird. Letzteres ist insbesondere der Fall, wenn die Nutzinformati- 
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on verteilt über die Informationsbeiträge vorliegt und erst durch die Fusion 
überhaupt erschlossen werden kann. 


Ein besonderes Potential bietet oft die Fusion der Beiträge heterogener Infor- 
mationsquellen, da sich diese grob gesagt aufgrund unterschiedlicher Stärken 
und Schwächen optimal ergänzen können, z. B. indem sie im Extremfall kom- 
plementäre Eigenschaften des interessierenden Sachverhalts erfassen. Wie in 
[Ral07] sehr anschaulich dargestellt wird, lassen sich heterogene und homoge- 
ne Informationsquellen (bzw. die von ihnen gelieferten Beiträge) per se nicht 
eindeutig voneinander abgrenzen, denn Information (bzw. die dieser zugrun- 
deliegenden Daten) kann auf sehr unterschiedliche Weise heterogen sein bzw. 
dies nicht sein. Letztlich hängt die Betrachtung von der konkreten Aufgaben- 
stellung und dem zugehörigen Kontext ab. 


So werden z.B. im Bereich der militärischen Aufklärung entsprechend der 
grundlegenden Natur der zur Informationsgewinnung eingesetzten Quellen 
unterschiedliche Intelligence-Disziplinen unterschieden (siehe z.B. [Das08] 
oder [NAT19]). Hierzu zählen IMINT (Imagery Intelligence), HUMINT (Hu- 
man Intelligence), SIGINT (Signals Intelligence), MASINT (Measurement and 
Signature Intelligence) und OSINT (Open Source Intelligence). Die durch die 
Verarbeitung und Auswertung erfasster Daten und Information resultieren- 
den Single-Intelligence Ergebnisse können dann in höherwertigen Auswerte- 
und Analyseprozessen zu Multiple-Intelligence Ergebnissen weiter verarbei- 
tet, analysiert und insbesondere auch Intelligence-Disziplin-übergreifend in 
Bezug gesetzt und fusioniert werden. Bei genauerer Betrachtung arbeiten die 
einzelnen Intelligence-Disziplinen selbst wieder mit Daten und Information 
unterschiedlicher Herkunft, z.B. werden im IMINT Bereich unterschiedliche 
elektrooptische Sensoren, Radar etc. zur Datenerfassung eingesetzt. 


Neben den zuvor beispielhaft aufgezeigten Unterscheidungsmöglichkeiten 
von Informationsquellen hinsichtlich ihrer Diversität ist auch die Unter- 
scheidung von Informationsquellen hinsichtlich der Abstraktionsebene, auf 
der die von ihnen gelieferten Beiträge vorliegen, wichtig. Eine oft hilfreiche 
Unterscheidung ist hier die zwischen der Ebene der Daten, der Ebene der 
Merkmale und der Ebene der Symbole/Entscheidungen. 
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2.1 Grundprinzip 


Abb. 2.2 illustriert die beiden zuvor dargestellten, sich ergänzenden Möglich- 
keiten zur Unterscheidung heterogener Informationsquellen. Im Hinblick auf 
die Durchführung der Fusion kann es technisch und/oder organisatorisch vor- 
teilhaft sein, ähnliche Informationsbeiträge zunächst zu Zwischenergebnissen 
zusammenzuführen und somit deren Verarbeitung und insbesondere auch die 
Fusion schrittweise durchzuführen. Beispielsweise könnte es im Bereich der 
militärischen Aufklärung vorteilhaft sein, unterschiedliche Bilder in einem 
ersten Schritt zu einem höherwertigen Bild zu fusionieren oder unterschied- 
liche Bilder auszuwerten und die Ergebnisse in einem zusammenfassenden 
Auswertebericht (vgl. z.B. [San19]) als IMINT Ergebnis festzuhalten. 


Bericht, Bericht 
Bericht, Bericht 
Bericht, Bericht 
Bericht, Bericht 
Bericht, Bericht 


Symbole/ E 
Entscheidungen &% 
5 
£ 
Merkmale i 
2 
2 
< 
Daten 
Diversität 
Disziplinen: HUMINT ... IMINT Ar OSINT 


Abbildung 2.2: Unterscheidung heterogener Informationsquellen entsprechend ihrer Diversität 
(horizontal) und der Abstraktionsebene (vertikal), auf der ihre Beiträge vorlie- 
gen, am Beispiel von Intelligence-Diziplinen in der militärischen Aufklärung. 


Wie bei der Illustration des Grundprinzips der Informationsfusion in Abb. 2.1 
unter Verwendung des Begriffs Vorwissen bereits angedeutet, liegt es auf der 
Hand, dass bei der Informationsfusion auch Wissen, das zusätzlich zu den von 
den Informationsquellen gelieferten Beiträgen in Bezug auf den interessie- 
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2 Informationsfusion 


renden Sachverhalt vorhanden ist, in adäquater Weise berücksichtigt werden 
sollte, um so ein möglichst hochwertiges Fusionsergebnis zu erzielen. Im Be- 
reich der militärischen Aufklärung ist in diesem Kontext auch der Begriff Ba- 
sic Intelligence gebräuchlich [NAT19]. Zur Veranschaulichung seien folgende 
Beispiele für Vorwissen angeführt: 


e Kartenmaterial kann z.B. Information darüber liefern, wo in ei- 
nem aufzuklärenden Gebiet Straßen oder Wasserwege verlaufen 
und damit letztlich dazu, wo sich bestimmte Objekte üblicherwei- 
se fortbewegen. 


e Die grundlegende Kenntnis der Eigenschaften bestimmter Objekt- 
typen kann z.B. Wissen dahingehend liefern, dass sich ein Ob- 
jekt eines bestimmten Typs nur mit einer bestimmten Maximal- 
geschwindigkeit fortbewegen kann. 


Vorwissen kann insbesondere auch zu früheren Zeitpunkten gewonnene 
bzw. abgeleitete Information oder allgemein verfügbares Wissen und Regeln 
(z.B. Naturgesetze) beinhalten. Wie in [Bey08] dargestellt, lässt sich diese 
Eingangsgröße des Fusionsprozesses prinzipiell auch technisch dahingehend 
nutzen, um spezielle Anforderungen an das Fusionsresultat einzubringen. Ein 
konkretes Beispiel hierfür ist das Einbringen von Glattheitsanforderungen 
an das Ergebnisbild bei der Bildfusion. 


2.2 Zentrale Begrifflichkeiten 


Der Begriff Informationsfusion ist in der Fachliteratur nicht einheitlich de- 
finiert. Hinsichtlich einer vertieften Betrachtung dieses Sachverhalts und ei- 
nes Überblicks über die Vielfalt an vorhandenen Definitionen sei auf [Sni11] 
und insbesondere auf [Bos07b] verwiesen. Dabei ist zu beachten, dass der Be- 
griff Informationsfusion oftmals synonym zu verwandten Begriffen wie z.B. 
Datenfusion verwendetet wird. Das Spektrum der Begriffsdefinitionen in der 
Literatur reicht von sehr allgemein gehaltenen Definitionen bis hin zu auf 
spezielle Anwendungen bzw. Domänen ausgerichteten Definitionen. 
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2.2 Zentrale Begrifflichkeiten 


Beispielsweise wird in [Kle04] nachfolgende Definition zugrundegelegt: 


„Data fusion is a multilevel, multifaceted process dealing with 
the automatic detection, association, correlation, estimation, and 
combination of data and information from single and multiple 
sources to achieve refined position and identity estimates, and 
complete and timely assessments of situations and threats and 
their significance“ 


Diese sehr konkrete Festlegung geht im Wesentlichen zuriick auf eine durch 
das amerikanische Joint Directors of Laboratories (JDL) vorgenommene und 
im sog. Datenfusionslexikon [Whi87] dokumentierte Definition. Um dem 
fachlichen Fortschritt und der zunehmenden Verbreitung von Methoden der 
Informationsfusion auch über den militärischen Kontext hinaus gerecht zu 
werden, wurde die ursprüngliche Definition des JDL in den Folgejahren mo- 
difiziert. Erwähnenswert in Bezug auf diese Überarbeitungen ist insbesondere 
die folgende, in [Ste99] eingeführte Definition: 


„Data fusion is the process of combining data to refine state 
estimates and predictions.“ 


Parallel dazu wurde im Rahmen einer europäischen Arbeitsgruppe nachfol- 
gende, noch weitreichendere Definition erarbeitet [Wal99]: 


„Data fusion is a formal framework in which are expressed me- 
ans and tools for the alliance of data originating from different 
sources. It aims at obtaining information of greater quality; the 
exact definition of ‚greater quality‘ will depend upon the applica- 
tion“ 


Diese Definition zeichnet sich dadurch aus, dass sie explizit den Bezug zwi- 
schen Informationsfusion und Informationsqualität herstellt. Siehe [San12] 
für eine ergänzende Betrachtung dieses Bezugs sowie [Ess18b] für weitere 
Ergebnisse zum Thema Informationsqualität speziell für den Fall von System- 
verbünden. 


Ein weiteres Beispiel für eine sehr allgemein gehaltene Definition ist die wie 
folgt in [Das01] getroffene Festlegung: 
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„Information fusion encompasses the theory, techniques, and 
tools conceived and employed for exploiting the synergy in the 
information acquired from multiple sources (sensor, databases, 
information gathered by human, etc.) such that the resulting de- 
cision or action is in some sense better (qualitatively or quanti- 
tatively, in terms of accuracy, robustness and etc.) than would 
be possible, ifthese sources were used individually without such 
synergy exploitation“ 


Dem in Abschnitt 2.1 eingeführten Grundprinzip der Informationsfusion fol- 
gend wird in der vorliegenden Arbeit nachfolgende Definition aus [Bey07] 
verwendet: 


Definition 2.1. Informationsfusion bedeutet das förderliche Zusammenführen, 
Überlagern und Nutzen der Beiträge mehrerer Informationsquellen im Hinblick 
auf eine gegebene Aufgabenstellung. 


Diese Definition zeichnet sich dadurch aus, dass sie in hohem Maße allge- 
meingültig ist und dabei wie auch die ersten beiden der zuvor zitierten Festle- 
gungen den eigentlichen Prozess der Informationsfusion in den Vordergrund 
stellt. Ebenfalls gemäß [Bey07] ist der Begriff Information dabei in einem abs- 
trakten, informationstheoretisch motivierten Sinne zu verstehen: 


Definition 2.2. Information ist alles, das im Kontext der gegebenen Aufgaben- 
stellung relevant ist, in dem Sinne, dass es zur Verminderung einer vorhandenen 
Unsicherheit in Bezug auf den interessierenden Sachverhalt beitragen kann. 


Weiter ist in der vorliegenden Arbeit unter der Begrifflichkeit Fusion unter- 
schiedlicher Informationsquellen die Informationsfusion der von diesen Quel- 
len gelieferten Beiträge zu verstehen und der Begriff Vorwissen steht zusam- 
menfassend für alles, das zusätzlich zu den von den Informationsquellen gelie- 
ferten Beiträgen hilfreich ist zur Generierung eines möglichst hochwertigen 
Fusionsresultats. 


Definition 2.2 impliziert insbesondere, dass in der vorliegenden Arbeit i. A. 
keine explizite Unterscheidung der Begriffe Daten, Information und Wissen 
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2.2 Zentrale Begrifflichkeiten 


erfolgt, sondern dass statt dessen der Begriff Information als übergreifender 
Begriff verwendet wird. 


Die Unterscheidung der Begriffe Daten, Information und Wissen wird in der 
Fachliteratur oftmals anhand des deskriptiven Modells der sog. Wissenspyra- 
mide (siehe z. B. [Eng08]) oder anhand verwandter Modelle wie der sog. DIKW 
(Data-Information-Knowledge-Wisdom) Hierarchie (siehe z. B. [Row07]) vor- 
genommen. Diese Modelle grenzen die Begriffe Daten, Information und Wis- 
sen auf Basis unterschiedlicher, hierarchisch angeordneter Ebenen vonein- 
ander ab. Bei der Interpretation der Modelle sollte jedoch beachtet werden, 
dass es fraglich ist, ob tatsächlich eine derart scharfe Abgrenzung der Realität 
entspricht (vgl. [Bod06]). 


Abb. 2.3 illustriert die entsprechenden drei Hierarchieebenen. Auf der linken 
Seite sind zusätzlich die Verarbeitungsschritte vermerkt, welche gemäß Auf- 
fassung in der Literatur (vgl. [Bre06]) durchlaufen werden müssen, um aus 
Daten Entscheidungen ableiten zu können. 


Entscheidungsfindung 
Synthese 
Analyse «— Vernetzung 


Zusammenfassung 


Organisation «— Kontext 


Sammlung 


Abbildung 2.3: Zusammenhang zwischen Daten, Information und Wissen. Abbildung mit Er- 
gänzungen angelehnt an [Bre06]. 
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Daten stellen eine digitale Repräsentation von Information dar. Diese Reprä- 
sentation erfolgt mittels nach bestimmten bekannten syntaktischen Regeln 
kodierten Zeichen. Der Begriff Zeichen lässt sich dabei im allgemeinen Sin- 
ne auffassen als das kleinste bei einer Programmausführung zugreifbare Ele- 
ment. Zeichen können also z.B. Buchstaben und Zahlen eines Alphabets (bei 
Daten in Textform) oder Pixelwerte (bei Bilddaten) sein. Daten können aus 
physikalischen Signalen abgeleitet sein, sie können aber auch auf andere Art 
zustande kommen. 


Daten werden zu Information, indem ihnen eine Bedeutung (Semantik) bei- 
gefügt wird (vgl. [Bod06]). Hierzu müssen die Daten in den relevanten Kon- 
text gesetzt werden. In [Reh96] wird diese Notwendigkeit wie folgt auf den 
Punkt gebracht: „Daten sind das Gegebene zur Verarbeitung ohne Verwen- 
dungshinweise“. Die Bedeutung, welche den Daten beigefügt wird, hängt vom 
jeweiligen Kontext ab. Wenngleich nicht explizit abgebildet in der Wissens- 
pyramide bzw. den Ebenen der DIKW Hierarchie, setzt die Formulierung des 
Kontexts in der Regel bereits das Vorhandensein und die Einbeziehung von 
entsprechendem Wissen voraus (vgl. [Dip05]). 


Wissen entsteht gemäß [Bod06] nach verbreiteter Auffassung in der Literatur 
durch die zweckorientierte Verknüpfung von Information unter Berücksichti- 
gung von Kenntnissen hinsichtlich ihres Zusammenhangs und von Möglich- 
keiten zur sinnvollen Vernetzung. 


Die dargestellte Unterscheidung von Daten, Information und Wissen steht 
nicht im Widerspruch zu der in Definition 2.2 gemachten Festlegung, derzu- 
folge Information (im Kontext der Informationsfusion) als übergreifender Be- 
griff verwendet wird. Gemäß Definition 2.1 erfolgt Informationsfusion immer 
im Hinblick auf eine gegebene Aufgabenstellung oder, in anderen Worten, in 
Bezug auf einen interessierenden Sachverhalt (vgl. Abschnitt 2.1). In die Fusi- 
on eingehende Daten müssen dafür zwangsläufig entsprechend interpretiert, 
d.h. in den für das Fusionsproblem relevanten Kontext gesetzt werden. Im 
Sinne der zuvor vorgestellten Begriffsunterscheidung müssen sie für die Fusi- 
on also auf die Informationsebene überführt werden. Definition 2.2 ist ebenso 
auch zur zuvor eingeführten Auffassung des Begriffs Wissen kompatibel, in 
dem Sinne, dass Information mit den Bausteinen für Wissen korrespondiert. 


22 


2.3 Anforderungen an eine Fusionsmethodik 


2.3 Anforderungen an eine Fusionsmethodik 


Aus den bisherigen Ausführungen lassen sich drei Basisanforderungen an ei- 
ne sinnvolle Methodik zur Fusion heterogener Informationsquellen ableiten. 
Dabei handelt es sich um ihre Fähigkeiten zu Transformation, Fusion und Fo- 
kussierung. Diese lassen sich in Anlehnung an [Bey07] wie folgt beschreiben: 


Transformation: Die Fähigkeit zur Transformation bedeutet, dass die Fu- 
sionsmethodik in der Lage ist, alle in die Informationsfusion einge- 
henden Informationsanteile möglichst unverfälscht in eine einheitli- 
che formale Beschreibung zu überführen. Dazu müssen heterogene 
Informationsanteile in Abhängigkeit von ihrem ursprünglichen Abs- 
traktionsgrad entweder verlustarm abstrahiert (bei Erhöhung des Abs- 
traktionsgrads), fehlerfrei gewandelt (bei gleichbleibendem Abstrak- 
tionsgrad) oder artefaktarm spezialisiert (bei Absenken des Abstrak- 
tionsgrads) werden. Die Transformation in eine einheitliche formale 
Beschreibung ist nötig, um die zu fusionierenden Informationsanteile 
mathematisch kompatibel zu machen. 


Fusion: Die Fähigkeit zur Fusion bedeutet, dass die Fusionsmethodik über 
Mechanismen verfügt, um die transformierten Informationsanteile auf 
eine mathematisch fundierte Weise zu einem möglichst hochwertigen 
Fusionsresultat zu kombinieren. 


Fokussierung: Die Fähigkeit zur Fokussierung bedeutet, dass die aus der 
Fusion resultierende umfassende Informationsverkörperung der Ge- 
samtaufgabe bei Bedarf zielgerichtet auf spezielle Einzelfragestellun- 
gen konzentriert werden kann. Dies ist wichtig, um sicherzustellen, 
dass auch ein umfangreiches Fusionsergebnis tatsächlich von Nutzen 
ist, indem es z.B. möglichst schnell erfassbar ist und den Menschen 
nicht aufgrund seiner aus dem hohen Umfang resultierenden Kom- 
plexität überfordert. 


Wie in Abb. 2.4 für ein Beispiel aus der militärischen Aufklärung illustriert, 
kann es bei der Umsetzung der Fusionsmethodik für eine konkrete Aufga- 
benstellung vorteilhaft sein, schrittweise vorzugehen. Die Abbildung illus- 
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triert die Fusion von vier auf der Datenebene vorliegenden Beiträgen aus 
dem IMINT Bereich, z.B. Bildern, mit je einem auf der Ebene der Symbo- 
le/Entscheidungen vorliegenden Beitrag aus den Bereichen OSINT, z. B. Kar- 
teninformation, und HUMINT, z. B. die Meldung eines Aufklärungstrupps. Im 
dargestellten Beispiel wird zuerst ein Teil der Bilder zu einem höherwertigen 
Bild fusioniert. Das Ergebnis sowie der weitere Beitrag aus dem IMINT Be- 
reich, z. B. ein mit anderer Sensorik erfasstes Bild, werden dann auf die Ebene 
der Merkmale abstrahiert, auf der ein weiterer Fusionsschritt erfolgt. Das Er- 
gebnis wird weiter abstrahiert und anschließend mit den Beiträgen aus dem 
HUMINT und OSINT Bereich fusioniert, welche hierzu ggf. vorab geeignet 
gewandelt werden müssen. Das resultierende Fusionsresultat könnten in die- 
sem Beispiel Angaben zu Ort, Position und Typ von sich in einem bestimmten 
räumlichen Gebiet befindenden Objekten von Interesse sein. 


Resultat 
Symbole/ 
Entscheidungen 


Merkmale 


Abstraktionsgrad 


Daten 


Diversität 
HUMINT IMINT OSINT 


Abbildung 2.4: Das Zusammenwirken von Transformation und Fusion am Beispiel von Beiträ- 
gen unterschiedlicher Intelligence-Diziplinen in der militärischen Aufklärung. 
Abbildung angelehnt an [Bey06b]. 


Eine weitere wichtige Eigenschaft, die eine Fusionsmethodik aufweisen sollte, 
ist ein ausreichendes Maß an Nachvollziehbarkeit. Gerade in sicherheitskriti- 
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schen Anwendungen oder in Fällen, in denen geltende Vorgaben und Geset- 
ze wie z.B. die europäische Datenschutzgrundverordnung (DSGVO) fordern, 
dass maschinell getroffene Entscheidungen angemessen begründet werden 
müssen, ist diese Eigenschaft unabdingbar. Im Hinblick auf die Nachvollzieh- 
barkeit maschineller Anwendungen lassen sich dabei, wie in [Döb18] darge- 
stellt, die Begriffe Transparenz und Erklärbarkeit unterscheiden. Die Erklär- 
barkeit einer Anwendung bedeutet, dass die von ihr konkret gelieferten Er- 
gebnisse nachvollziehbar sind - in dem Sinne, dass die wesentlichen Faktoren, 
die zu diesen Ergebnissen führten, dargelegt werden können. Transparenz 
bedeutet, dass das Verhalten der Anwendung und damit auch die zugrun- 
deliegenden Modelle und Verfahren vollständig nachvollziehbar sind. Einen 
grundlegenden Einblick in das dieser Thematik insgesamt zugrundeliegende 
Forschungsgebiet, welches oft unter dem Begriff der erklärbaren künstlichen 
Intelligenz (im Englischen: Explainable Artificial Intelligence (Ex-AI, XAI)) 
gefasst wird, geben z.B. die Referenzen [Du19] und [Hol18]. 


Eine praxistaugliche Fusionsmethodik muss außerdem auch mit vertretbarem 
Aufwand anwendbar sein. Es sei hierzu auch angemerkt, dass in vielen praxis- 
relevanten Anwendungen der Informationsfusion per se nur sehr beschränk- 
te Ressourcen zur Verfügung stehen. Beispielsweise müssen mobile Roboter 
wie UAVs (Unmanned Aerial Vehicles) oftmals mit der Speicher- und Rechen- 
kapazität auskommen, die sie on board mitführen können. Auch muss z.B. 
im Bereich der militärischen Aufklärung benötigte Information in der Regel 
innerhalb eines bestimmten Zeitfensters bereitgestellt werden können, um ih- 
re bestmögliche Nutzbarkeit, z.B. zur Ableitung darauf basierender Entschei- 
dungen, überhaupt zu ermöglichen. In solchen Fällen kann ein vom mathema- 
tischen Standpunkt her optimales Fusionsresultat letztlich weniger nützlich 
sein als ein nicht optimales Fusionsresultat von noch akzeptabler Qualität, 
wenn die Berechnung des letzteren weniger Ressourcen bedarf. 


Eine weitere wünschenswerte Eigenschaft an eine praktikable Fusionsmetho- 
dik, welche technische Systeme in die Lage versetzt, gerade auch heterogene 
Informationsbeiträge zu fusionieren, ist ihre modulare Erweiterbarkeit. 
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2.4 Möglichkeiten zur Einordnung 


Im vorliegenden Abschnitt werden gängige Möglichkeiten zur systematischen 
Einordnung von Fusionsaufgaben, -methoden und -architekturen zusammen- 
gefasst und diskutiert. 


2.4.1 Zusammenhang der Informationsbeiträge 


In Abhängigkeit von der Beziehung der von den Informationsquellen gelie- 
ferten Beiträge zueinander lassen sich, unter Berücksichtigung des genauen 
Ziels der Informationsfusion, die folgenden vier elementaren Arten der Fusion 
unterscheiden (vgl. im Wesentlichen auch [Hei08] und [Rus07]): 


Konkurrierende Fusion: Die konkurrierende Fusion bezeichnet die Fusi- 
on von gleichartigen Informationsbeiträgen mit gleicher Nutzinfor- 
mation mit dem Ziel, bestimmte Unsicherheiten gezielt zu reduzieren. 
Ein Beispiel hierfür ist die Überlagerung von unter gleichen Aufnah- 
mebedingungen gemachten Bildern zur Rauschunterdrückung durch 
die positionsweise Mittelung der Intensitätswerte über die entspre- 
chende Bildserie. Vgl. hierzu z.B. [Rus07]. 


Komplementäre Fusion: Die komplementäre Fusion bezeichnet die Fu- 
sion von gleichartigen Informationsbeiträgen mit unterschiedlicher 
Nutzinformation mit dem Ziel, vollständigere Information zu erlan- 
gen. Ein Beispiel für eine komplementäre Fusion ist die Kombination 
von mittels gleicher Sensorik aufgenommenen Bildern, welche sich 
überschneidende (jedoch unterschiedliche) Ortsbereiche abdecken, 
zur Erzeugung eines Ergebnisbilds mit erweitertem örtlichen Abde- 
ckungsbereich. Vgl. z.B. [Mül07] im Hinblick auf die Erzeugung eines 
Bildteppichs auf Basis von Videodaten. 


Kooperative Fusion: Bei der kooperativen Fusion liegt die Nutzinformati- 
on verteilt über die Informationsbeiträge vor, so dass die gewünschte 
Information in Bezug auf den interessierenden Sachverhalt überhaupt 
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erst durch ihre Fusion erschlossen werden kann. Ein Beispiel für ei- 
ne kooperative Fusion ist die Erzeugung einer Tiefenkarte zur 3D- 
Rekonstruktion einer Szene durch die Fusion von Stereoserien, d.h. 
von aus unterschiedlichen Positionen aufgenommenen Bildern. Vgl. 
hierzu z.B. [Ghe08b]. 


Orthogonale Fusion: Bei der orthogonalen Fusion liefern die Informati- 
onsquellen Beiträge in Bezug auf disjunkte Aspekte des interessieren- 
den Sachverhalts. Dies ist z. B. der Fall, wenn heterogene Sensoren un- 
terschiedliche physikalische Eigenschaften einer Szene erfassen oder 
wenn gleichartige Informationsbeiträge vor der eigentlichen Fusion 
mit unterschiedlichen Verarbeitungsmethoden ausgewertet werden. 
Vgl. hierzu z.B. [Hei08]. Ein anderes Beispiel für eine orthogonale 
Fusion ist die Fusion von mittels GMTI (Ground Moving Target In- 
dicator) Sensorik gewonnener Bewegungsinformation eines Objekts 
und aus militärischen Auswerteberichten stammender Information in 
Bezug auf den Objekttyp. Vgl. hierzu [Kuw17]. 


2.4.2 Abstraktionsebenen 


Die bereits in Abschnitt 2.1 skizzierte Unterscheidung, auf welcher Abstrakti- 
onsebene die eigentliche Fusion stattfindet, ist gerade bei datennahen Anwen- 
dungen oftmals hilfreich zur Einordnung von Fusionsaufgaben, insbesondere 
auch im Hinblick auf die Auswahl geeigneter Fusionsmethoden (vgl. hierzu 
z.B. [Hal97, Hei08, Men20)). In der Fachliteratur werden dabei oftmals die be- 
reits zuvor erwähnten Ebenen der Daten, der Merkmale und der Symbole/Ent- 
scheidungen unterschieden. Entsprechende Fusionsaufgaben werden dann in 
englischsprachigen Veröffentlichungen in die Kategorien Data-Level Fusion, 
Feature-Level Fusion und Decision-Level Fusion eingeordnet. Im Kontext der 
Bildfusion wird statt dem Begriff Data-Level Fusion dabei auch der Begriff 
Pixel-Level Fusion verwendet. 


Der Begriff Daten steht bei dieser Unterscheidung für die (maschinell verar- 
beitbare) digitale Repräsentation von Information, welche z.B. von Sensoren 
erfasst wird. Merkmale lassen sich auffassen als aus den ursprünglichen Daten 
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abgeleitete charakteristische Größen (Eigenschaften), die geeignet sein sollen, 
eine möglichst fehlerfreie Entscheidung hinsichtlich des Fusionsresultats zu 
ermöglichen. Ein Beispiel für auf der Ebene der Symbole/Entscheidungen an- 
gesiedelte Information wären die Ergebnisse einer durchgeführten Klassifika- 
tion zum Zwecke der Identifikation von Objekten. 


a Paes 
Fusion auf 
Datenebene 


| | 
Assoziation 
a 
VE Fusion auf 
Merkmals- 
ebene 
Identitäts- Identitäts- 


extraktion 


schätzung schätzung 


Resultat Resultat 


Fusion auf 
Entscheidungs- 
ebene 


Identitäts- 
schätzung 


Resultat 


Abbildung 2.5: Fusion der Informationsbeiträge von unterschiedlichen Sensoren Q4, ..., Qs auf 
den verschiedenen Abstraktionsebenen. Abbildung angelehnt an [Hal97]. 


Abb. 2.5 illustriert anhand eines in [Hal97] gegebenen Beispiels mögliche Um- 
setzungen der Fusion auf den verschiedenen Abstraktionsebenen. Anwen- 
dungsfall ist dabei die Fusion von Information bezüglich Attributen eines in- 
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teressierenden Objekts, welche in Daten von unterschiedlichen Sensoren ent- 
halten ist, mit dem Ziel, die Objekt-Identität bestmöglich zu ermitteln. 


Die Frage, welche Abstraktionsebene die geeignetste zur Lösung einer 
bestimmten Aufgabe ist, lässt sich nicht einheitlich beantworten. Wie in 
Abschnitt 2.3 bereits thematisiert wurde, kann es auch zielführend sein, zur 
Lösung einer Gesamtausgabe mehrere Fusionsschritte auf unterschiedlichen 
Abstraktionsebenen zu kombinieren. 


Werden Informationsbeiträge für die Durchführung der Fusion auf eine höhe- 
re Abstraktionsebene transformiert, so ist die Fusion oft rechnerisch weniger 
aufwändig. Allerdings können durch die Abstraktion Teile der Nutzinforma- 
tion verloren gehen. Aus diesem Grund lässt sich durch die Fusion auf einer 
niedrigeren Abstraktionsebene ggf. ein hochwertigeres Fusionsresultat erzie- 
len (vgl. [Hei08]), wobei in [Das97] darauf hingewiesen wird, dass sich diese 
Aussage nicht pauschalieren lässt. Der Grund für Letzteres ist, dass der Um- 
fang an letztlich tatsächlich nicht für die Fusion relevanter Information in der 
Regel hier am ausgeprägtesten ist und zudem eher die Gefahr besteht, dass 
mögliche Störungen (z. B. Rauschen) das Ergebnis verfälschen. Unter anderem 
deshalb kann bei der Durchführung einer Fusion auf einer niedrigeren Abs- 
traktionsebene die Einbeziehung von Information aus höheren Abstraktions- 
ebenen hilfreich oder sogar notwendig sein (vgl. [Bey08] und [Hei08]), z. B. 
zur Steuerung des Fusionsprozesses. Bei der Auswahl einer geeigneten Abs- 
traktionsebene für die Fusion ist weiter zu berücksichtigen, dass zur Durch- 
führung der Fusion auf einer niedrigeren Abstraktionsebene in der Regel spe- 
zifischere, an die Natur der Informationsquellen angepasste Methoden zur 
Verarbeitung der Informationsbeiträge nötig sind. Dies erschwert dann ins- 
besondere auch die Erweiterung eines Gesamtsystems zur Fusion, wenn neue 
Informationsquellen eingebunden werden sollen. Je nach vorliegender Diver- 
sität der Informationsquellen kann zudem eine Fusion rein auf einer niedri- 
gen Abstraktionsebene auch gar nicht erst möglich sein. Beispielsweise ist 
es nicht möglich, Informationsbeiträge, welche durch einen akustischen Sen- 
sor und einen bildgebenden Sensor gewonnen werden, direkt auf der Daten- 
ebene zu fusionieren. Ein weiteres konkretes Beispiel hierfür stellt die Fu- 
sion von mittels eines Multi-Sensor-Systems gewonnen Informationsbeiträ- 
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gen und Zusatzinformation (z.B. aus Produktblättern) bei dem in [Mül18a, 
Müli8b] adressierten System zur Drohnenerkennung und -abwehr dar. Wird 
die Fusion auf einer höheren Abstraktionsebene umgesetzt, so können zusätz- 
liche Arten von Informationsquellen (z.B. weitere Arten von Sensoren) oder 
neue Verfahren für die Verarbeitung der Informationsbeiträge oftmals recht 
unkompliziert und in modularer Weise in ein Gesamtsystem integriert wer- 
den. Dabei ist jedoch sicherzustellen, dass die Merkmale bzw. symbolischen 
Informationen/Entscheidungen, welche aus den einzelnen Informationsbei- 
trägen abgeleitet werden, unabhängig voneinander sind bzw. dass vorhande- 
ne Abhängigkeiten explizit bei der Durchführung der Fusion berücksichtigt 
werden können. 


2.4.3 Fusionsmodelle 


In der Fachliteratur finden sich zahlreiche unterschiedliche Fusionsmodelle. 
Einen recht umfassenden Überblick bieten [Bed00], [Elm07], [Das08], [Foo13] 
und [Mor17]. Während manche Modelle speziell für den Anwendungskontext 
der Informationsfusion entwickelt wurden, handelt es sich bei vielen Mo- 
dellen auch um Beschreibungen aus anderen Fachbereichen oder speziellen 
Anwendungsdomänen, welche dann im Kontext der Informationsfusion als 
Grundlage herangezogen und ggf. weiterentwickelt werden. 


Die fortschreitende Digitalisierung und der technologische Fortschritt in Be- 
zug auf Sensor-, Netzwerktechnologien etc. bewirken heute in vielen An- 
wendungsbereichen die zunehmende Vernetzung von Systemen, Menschen 
und Organisationen und ermöglichen dabei insbesondere auch den Zugriff 
auf weit verteilt vorliegende und umfangreiche Mengen an Information. Im 
Kontext der Informationsfusion relevante Ereignisse überschreiten dabei auch 
häufig räumliche und organisatorische, ggf. auch nationale Grenzen. Um die- 
se Gegebenheiten und die daraus resultierenden Anforderungen bestmöglich 
zu unterstützen, ist auch im Bereich der Informationsfusion die Zusammenar- 
beit der zur Informationsgewinnung und -verarbeitung zur Verfügung stehen- 
den Systeme und Akteure in system-, ebenen- und/oder organisationsüber- 
greifenden Verbünden notwendig. Vgl. hierzu auch [Cat17], [Ess17] [Ess19] 


30 


2.4 Möglichkeiten zur Einordnung 


und [Hal13]. Dies gilt insbesondere für Anwendungen in den Bereichen zivi- 
le Sicherheit und militärischen Aufklärung, aber auch darüber hinaus, z. B. im 
Kontext von Umweltinformationssystemen. Wenngleich sich die nachfolgend 
dargestellten Fusionsmodelle grundsätzlich auf den Anwendungskontext der- 
artiger Verbünde übertragen lassen, so ist anzumerken, dass sie größtenteils 
per se nicht hierfür entwickelt wurden. Es besteht deshalb gerade hier Po- 
tential, ihre Passgenauigkeit und Aussagekraft durch Präzisierung und/oder 
Weiterentwicklung zu verbessern. Vgl. hierzu auch [Bla17] und [Lig08]. 


2.4.3.1 JDL Modell 


Das JDL Modell, das bis heute zu den populärsten Fusionsmodellen zählt, geht 
in seiner ursprünglichen Form zurück auf die ersten nennenswerten Ansätze 
zur Strukturierung des Forschungsgebiets Informationsfusion, welche durch 
das amerikanische Joint Directors of Laboratories (JDL) unternommen wur- 
den. Es sei erwähnt, dass im Rahmen dieser Ansätze auch das in Abschnitt 2.2 
erwähnte Datenfusionslexikon entstand. Seit der ursprünglichen Erstellung 
des JDL Modells im Jahre 1985 gab es vielfältige Ansätze zu seiner Weiter- 
entwicklung und Präzisierung. Hervorzuhebende Beispiele für entsprechende 
Veröffentlichungen stellen [Bla02], [Bla17], [Ste99], [Ste01] und [Ste08] dar. 


Das JDL Modell ist ein funktionales Modell. Wie in Abb. 2.6 dargestellt kate- 
gorisiert es auf einem abstrakten Niveau die Fusionsprozesse in verschiedene 
Ebenen (Levels), welchen sich dann wiederum unterschiedliche, zur Adressie- 
rung der in den Ebenen formulierten Zielsetzungen erforderliche Detailfunk- 
tionalitäten zuordnen lassen. Da das JDL Modell kein Prozessmodell darstellt, 
wird die Abfolge der Prozesse dabei nicht festgelegt. Dieser Sachverhalt ist in 
[Ste99] und [Ste01] anhand von Darstellungen möglicher Informationsflüsse 
zwischen den Ebenen sehr anschaulich dargestellt. 


Dargestellt in Abb. 2.6 ist die in [Ste08] adressierte Version des JDL Modells. 
Auf eine Übersetzung der in Abb. 2.6 angeführten Begrifflichkeiten wurde 
zwecks präziser Wiedergabe der originalen Darstellung bewusst verzichtet. 
Das JDL Modell besteht gemäß Abb. 2.6 aus vier verschiedenen Ebenen (Level 
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1 bis Level 4) sowie einer zusätzlichen Ebene (Level 0), welche der Vorverar- 
beitung dient. 


iJ 


Level 0 Level 1 Level 2 Level 3 
Processing Processing Processing Processing 

Signal/Feature Entity Situation Impact 
Assessment Assessment Assessment Assessment 
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Database Management System 


Support Fusion 
Database Database 


Abbildung 2.6: JDL Modell. Abbildung angelehnt an [Ste08]. 
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In Anlehnung an [Hal01] und [Ste08] lassen sich Level 1 bis Level 4 wie folgt 
charakterisieren: Level 1 adressiert die Schätzung der Zustände und Eigen- 
schaften einzelner Entitäten auf Basis der hierzu vorliegenden Information. 
Anders als in früheren Darstellungen des JDL Modells (wie z.B. in [Ste01]) 
wird in [Ste08] bei der Benennung von Level 1 bewusst die generische Be- 
zeichnung Entität (statt Objekt) verwendet und es wird darauf hingewiesen, 
dass die Festlegung der relevanten Typen von Entitäten beim Design eines Fu- 
sionssystems explizit adressiert werden muss. Zu den in Level 1 üblicherweise 
anfallenden Teilaufgaben gehören die Detektion, die Identifikation, die Loka- 
lisierung und das Tracking einzelner physikalischer Objekte. Die in Abb. 2.5 
adressierte Teilaufgabe der Objekt-Identifikation ist also in diese Ebene einzu- 
ordnen. Entitäten in Level 1 können darüber hinaus auch nicht physikalischer 
Natur sein und die Schätzung von Entitätszuständen und -eigenschaften kann 
auch anderweitig, z.B. auf Basis von indirekten Informationen, welche in hö- 
heren Ebenen des JDL Modells gewonnen werden, erfolgen. Level 2 adressiert 
die Ebene der Situationen. Hier geht es darum, Strukturen bestehend aus En- 


32 


2.4 Möglichkeiten zur Einordnung 


titäten und Beziehungen zwischen unterschiedlichen Entitäten untereinander 
sowie deren Umgebung zu verstehen. Level 3 adressiert die Interpretation der 
gewonnenen Information über Entitäten, Situationen etc. aus Sicht der mögli- 
chen Auswirkungen. Ein Beispiel für eine Aufgabenstellung, die unter Level 3 
einzuordnen ist, ist die Durchführung einer Bedrohungsanalyse. Diese Aufga- 
be wird in englischsprachigen Veröffentlichungen oft als Threat Assessment 
bezeichnet. Bei Level 4 handelt es sich um einen Metaprozess, welcher den re- 
sultierenden Gesamtfusionsprozess hinsichtlich Performanz und Effektivität 
bewertet. In der in [Ste08] vorgestellten Version des JDL Modells wird dabei, 
anders als bei früheren Versionen, die Funktionalität des eigentlichen Res- 
sourcenmanagements, welches insgesamt gesehen auch die Gewinnung bzw. 
Sammlung der für die Fusion zur Verfügung stehenden Information umfasst, 
bewusst aus Level 4 ausgeklammert und als eigenständige Funktionalität no- 
tiert. 


Eine ursprünglich auf [Wal90] zurückgehende, heute recht gängige Unter- 
scheidung ist die zwischen Low Level Fusion und High Level Fusion. Die Low 
Level Fusion wird üblicherweise mit Level 0 und Level 1 des JDL Modells asso- 
ziiert, während die High Level Fusion üblicherweise in Bezug zu Level 2 und 
(teilweise) Level 3 gesetzt wird (vgl. z.B. [Bla12], [Das08] und [Tot08]). Die an 
die Darstellungen in [Wal90] und [Bla12] angelehnte Abb. 2.7 illustriert diese 
Unterscheidung. Anzumerken ist dabei, dass sich die Darstellung auf den Fall, 
dass Level 1 des JDL Modells ausschließlich die Zustände und Eigenschaften 
physikalischer Objekte adressiert, fokussiert und möglichen Rückflüssen von 
höheren Ebenen des JDL Modells zu niederen Ebenen keine Rechnung trägt. 


In der Fachwelt wird überwiegend die Auffassung vertreten, dass gerade im 
Bereich der High Level Fusion noch deutliche wissenschaftliche Herausforde- 
rungen bestehen. Siehe hierzu z. B. [Bla12], [Bla19] und [Tot08]. Zu den Grün- 
den hierfür zählt nach Ansicht vieler Autoren, dass die Low Level Fusion oft- 
mals (zumindest vorwiegend) physikalische Eigenschaften von Objekten der 
realen Welt adressiert, welche sich überwiegend mittels numerischen Größen 
repräsentieren lassen, während die High Level Fusion vor allem mit abstrakte- 
rer Information symbolischer Natur umgehen muss. Weiter erfordert die High 
Level Fusion in der Regel die Einbeziehung umfangreicheren Zusatzwissens 
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(z. B. Expertenwissen, Kontextwissen), welches adäquat repräsentiert und ein- 
gebunden werden muss. Diese Thematik wird z.B. in den Veröffentlichungen 
[Hof19], [Kuw13], [Kuw18] und [Kuw19] adressiert. Hervorzuheben ist wei- 
ter, dass die High Level Fusion auch ein höheres Maß an Mensch-Maschine- 
Interaktion erfordert, in dem Sinne, dass der Mensch gerade hier in geeigne- 
ter Weise „in-the-Loop“ bzw. „on-the-Loop“ (vgl. z.B. [Not16]) gehalten wer- 
den muss. Hieraus folgt insbesondere dann auch, dass der Anforderung nach 
Nachvollziehbarkeit (vgl. Abschnitt 2.3) der maschinell umgesetzten Funktio- 
nalitäten zusätzliche Bedeutung zukommt. Aufgrund der zuvor angeführten 
Aspekte bestehen auch besondere Herausforderungen hinsichtlich der Eva- 
luation und Bewertung von Verfahren und Systemen zur High Level Fusion. 
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Abbildung 2.7: Low Level Fusion versus High Level Fusion gemäß [Wal90]. Abbildung ange- 
lehnt an die Darstellungen in [Bla12] und [Wal90]. 


2.4.3.2 I/O Modell nach Dasarathy 


Das in [Das97] eingeführte funktionale I/O (Input/Output) Fusionsmodell ord- 
net einzelne Fusionsprozesse technisch auf Basis eines zweiwertigen Schemas 
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ein. Die Einordnung erfolgt zum einem in Bezug auf die Abstraktionsebene, 
auf der die Informationsbeiträge in die eigentliche Fusion eingehen, und zum 
anderen in Bezug auf die Abstraktionsebene, auf welcher das Fusionsergebnis 
zu liegen kommt. Das /O Modell grenzt dabei Daten (im Englischen: Data), 
Merkmale (im Englischen: Features) und Entscheidungen (im Englischen: De- 
cisions) voneinander ab. Explizit eingeführt werden die in Abb. 2.8 dargestell- 
ten Modi sowie zusätzlich noch ein Fusionsprozess über die Zeit, der auf jeder 
der Abstraktionsebenen zum Einsatz kommen kann. 


Data Inpu Data In - Data Out Data Output 
Fusion 


DAI - DAO Fusion 


Data Inpu Data In - Feature Out Feature Output 
Fusion 


DAI - FEO Fusion 


Feature Inpu Feature In - Feature Out Feature Output 
Fusion 


FEI - FEO Fusion 


Feature Inpu Feature In - Decision Out Decision Output 
Fusion 


FEI - DEO Fusion 


Sa Decision In - Decision Out isi 
Decision Input a Decision Output 
Fusion 


DEI - DEO Fusion 


Abbildung 2.8: Fusions-Modi im I/O Modell. Abbildung angelehnt an [Das97]. 


Die unterschiedlichen Modi dienen als Bausteine für das Design von Fusions- 
architekturen (vgl. [Das97]). Auf Basis der Kategorisierung der anfallenden 
Teilaufgaben gemäß dem I/O Modell können dabei geeignete Fusionsverfah- 
ren und -techniken zu deren Adressierung ausgewählt werden. Die Erwei- 
terung der Kategorisierung auf zusätzliche Modi (z.B. Feature In - Data Out 
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Fusion, (Decision In + Feature In) - Decision Out Fusion) ist dabei möglich 
(vgl. [Das97] und [Ste01]). 


Wie in [Ste01] und [Ste08] dargestellt wird, kann das I/O Fusionsmodell in 
einer erweiterten Version zur Verfeinerung des JDL Modells herangezogen 
werden. Die Erweiterung ist dabei nötig, um auch die Anforderungen der JDL 
Level 2 bis 4 vollständig abzudecken. 


2.4.3.3 Situationsbewusstsein nach Endsley 


Während die bisher vorgestellten Modelle das Thema Informationsfusion aus 
der technischen Perspektive betrachten, kann das Modell von Endsley [End95] 
verwendet werden, um der kognitiven Ebene verstärkt Rechnung zu tragen. 
Bei diesem Modell handelt es sich um das erste und bis heute prominenteste 
Modell zur Beschreibung des Prozesses, anhand dessen menschliches Situati- 
onsbewusstsein entsteht. 


Endsley definiert den Begriff Situationsbewusstsein dabei wie folgt: 


„Situation Awareness is the perception of the elements in the 
environment within a volume of time and space, the comprehen- 
sion of their meaning, and the projection of their status in the 
near future“ 


Dieser Definition folgend werden im Modell wie in Abb. 2.9 dargestellt drei 
aufeinander aufbauende mentale Ebenen (Level) unterschieden. Diese lassen 
sich wie folgt beschreiben: 


e Level 1: Wahrnehmung der relevanten Informationselemente im 
beobachteten Ausschnitt der Umwelt. 


e Level 2: Verstehen der vorliegenden Situation auf Basis der Ele- 
mente aus Level 1 und unter Berücksichtigung des relevanten Kon- 
texts. 


e Level 3: Projektion zukünftiger Zustände, d. h. Vorhersage der zu- 
künftigen Entwicklung auf Basis der Dynamik der Informations- 
elemente und des Verständnisses der vorliegenden Situation. 
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Das so erlangte, möglichst hohe Maß an Situationsbewusstsein stellt dann die 
Basis für das Treffen von Entscheidungen und die nachgelagerte Ausführung 
von Handlungen dar. Wie durch die Feedback-Schleife in Abb. 2.9 gekenn- 
zeichnet, haben die ausgeführten Handlungen dann in der Regel Auswirkun- 
gen auf den Zustand des beobachteten Ausschnitts der Umwelt. 


Feedback Handlungs- 


ausführung 


Situationsbewusstsein 


Level 3 
Projektion 


Level 2 
Verstehen 


Level 1 
Wahrnehmung 


Zustand 


der Umwelt Entscheidung 


I 


Abbildung 2.9: Situationsbewusstsein gemäß [End95]; vereinfachte Darstellung. 


Bemerkenswert ist, dass sich, wie in [Das08] dargestellt wird, Level 1 bis Level 
3 aus dem Modell von Endsley recht direkt den entsprechenden gleichnami- 
gen Ebenen (Level) des JDL Modells zuordnen lassen. 


2.4.3.4 OODA Loop 


Der OODA (Observe-Orient-Decide-Act) Loop geht zurück auf den amerika- 
nischen Kampfpiloten, Ausbilder und Militärtheoretiker John Richard Boyd 
(1927-1997). Es handelt sich um ein Modell, welches den Prozess der Ent- 
scheidungsfindung anhand unterschiedlicher Phasen beschreibt. 


Zu Beginn steht demnach die Erfassung der aktuellen Lage (Observe-Phase). 
Die dabei gewonnene Information wird dann in Bezug zu weiterer Infor- 
mation und zu übergreifendem Wissen gesetzt, analysiert und eingeordnet 
(Orient-Phase), um so ein möglichst hohes Maß an Situationsbewusstsein 
zu erlangen. Auf dieser Basis erfolgt dann, auch unter Berücksichtigung der 
möglichen Konsequenzen, das eigentliche Entscheiden (Decide-Phase) und 
die getroffene Entscheidung wird durch entsprechendes praktisches Handeln 
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umgesetzt (Act-Phase). Das Handeln hat wiederum Auswirkungen auf die 
Lage, wodurch der OODA Loop erneut angestoßen wird. 


Ursprünglich entwickelt zur Beschreibung des Entscheidungsfindungsprozes- 
ses von Kampf-Piloten auf der taktischen Ebene, etablierte sich der OODA 
Loop darüber hinaus als generelles Metamodell zur Beschreibung des Ent- 
scheidungsfindungsprozesses von Personen, Organisationen etc. in ihrer Um- 
gebung. Dabei wird in der Regel Bezug zu der in Abb. 2.10 illustrierten, sehr 
abstrakten Darstellung des OODA Loops genommen. Die ursprünglich von 
Boyd 1996 entworfene Darstellung, welche z.B. in [Rév17] wiedergegeben 
ist, ist komplexer und sieht insbesondere auch Interaktionen zwischen den 
einzelnen Phasen, die nicht durch den in Abb. 2.10 illustrierten Zyklus an 
sich abgebildet sind, vor. Beispielsweise kontrolliert und leitet demnach die 
Orient-Phase implizit die Observe-Phase. 


Observe Orient 


Reale 
Situation 


Act Decide 


Abbildung 2.10: Die vier Phasen des OODA Loop. 


Der OODA Loop hat sich insbesondere auch als grundlegendes Geschäftspro- 
zessmodell im Bereich der militärischen Führung, im Englischen mit C2 (Com- 
mand and Control) bezeichnet, etabliert (vgl. z.B. [Rev17]). Wie in [Bos07a] 
angemerkt, wird der C2 Prozess dadurch jedoch stark - möglicherweise zu 
stark - vereinfacht, insbesondere im Hinblick darauf, dass die Entscheidungs- 
findung in heutigen militärischen Operationen nicht jeweils in Form einer 
einzigen und über alle Hierarchiestufen koordinierten Entscheidung erfolgt. 
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Gemäß [Bry04] lässt sich diese Problematik umgehen, indem man nicht einen, 
sondern multiple, auf unterschiedlichen Ebenen ablaufende OODA Loops vor- 
sieht. Dies muss dann so ausgestaltet sein, dass die Entscheidungsfindung auf 
einer bestimmten Ebene die auf niederen Ebenen mitberücksichtigt. 


Über diesen spezifischen Punkt hinaus ist jedoch generell anzumerken, dass 
der OODA Loop nicht selten als zu stark vereinfachend und auch als nicht 
korrektes Modell für den kognitiven Prozess menschlicher Entscheidungsfin- 
dung kritisiert wird. Ein wichtiger Kritikpunkt ist z.B. auch, dass der OO- 
DA Loop (zumindest in der abstrakten Version) zu implizieren scheint, dass 
die Entscheidungsfindung rein reaktiv auf in der Umwelt eingetretene Ereig- 
nisse erfolgt - während Entscheidungsträger jedoch tatsächlich auch proak- 
tiv Informationsbedarfe formulieren und diesen folgend Informationen sam- 
meln, um so Pläne und Handlungen abzuleiten (vgl. [Bry04]). Der hohe Abs- 
traktionsgrad des OODA Loops führt zudem gemäß [Bry04] auch dazu, dass 
er zwar grob beschreibt, wie die Entscheidungsfindung ablaufen kann, da- 
bei aber auch zentrale Aspekte hinsichtlich der Umsetzung nicht adressiert. 
Ausgeklammert wird z.B. der Aspekt, wie Entscheidungsträger ihre Informa- 
tionsbedarfe identifizieren und explizit machen. Offen bleibt weiter auch, wie 
die (in der Observe-Phase) gewonnene Information z. B. wie in [Roy01] darge- 
stellt auf Basis eines mentalen Modells zu Erlangung von Situationsbewusst- 
sein beiträgt. Derartige Kritikpunkte sollten bei der Anwendung dieses Mo- 
dells berücksichtigt und wo nötig z.B. durch entsprechende Präzisierungen 
adressiert werden. Eine Präzisierung könnte z.B. auch erfolgen, indem ein 
Bezug zu anderen Prozessmodellen gesetzt wird. 


2.4.3.5 Intelligence Cycle 


Der Intelligence Cycle beschreibt, ebenfalls anhand unterschiedlicher, als 
Zyklus angeordneter Phasen, die Prozessschritte, die bei der Planung, Gewin- 
nung, Weiterverarbeitung und Verfügbarmachung von entscheidungsrele- 
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vanter Information' anfallen. Die Anzahl und genaue Benennung der Phasen 
ist nicht einheitlich in der Literatur. Die nachfolgende Beschreibung anhand 
von vier Phasen, welche die englischsprachigen Bezeichnungen Direction, 
Collection, Processing und Dissemination tragen, orientiert sich an [NAT19]. 


Observe Direct 


Act OODA Orient <—— Disseminate Intelligence Collect 
LOOP Cycle 
Decide Process 


Abbildung 2.11: Mégliches Zusammenspiel von OODA Loop und Intelligence Cycle. 


Zu Beginn eines Durchlaufs des Intelligence Cycle (Direction-Phase) steht die 
klare Formulierung und ggf. Priorisierung derjenigen Fragestellungen, wel- 
che durch die in den nachfolgenden Phasen umgesetzte Informationsgewin- 
nung und -weiterverarbeitung beantwortet werden sollen. Wie in Abb. 2.11 
dargestellt könnten entsprechende Fragestellungen aus der Orient-Phase des 
OODA Loop resultieren, vgl. hierzu auch [Bie06]. Die möglichen Informati- 
onsquellen werden identifiziert und die Informationsgewinnung wird geplant. 
Im nächsten Schritt (Collection-Phase) werden die benötigten Informationen 
dann gewonnen. Gesammelte Daten werden dabei durch Auswertung/Inter- 
pretation in Information überführt. Die gewonnenen Informationsbeiträge 


» 


Die genaue Definition des Begriffs Intelligence im NATO Umfeld ist gemäß [NAT19] wie folgt: 
„Ihe product resulting from the directed collection and processing of information regarding 
the environment and the capabilities and intentions of actors, in order to identify threats and 
offer opportunities for exploitation by decision-makers." Frei übersetzt handelt es sich bei In- 
telligence also um im Hinblick auf anstehende Entscheidungen zielgerichtet gewonnene und 
weiterverarbeitete Information sowie daraus abgeleitetes Wissen. 
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werden dann in höherwertigen Auswerte- und Analyseprozessen weiterver- 
arbeitet, zueinander in Beziehung gesetzt, analysiert und auch fusioniert, um 
so die letztlich benötigte entscheidungsrelevante Information zu gewinnen 
(Processing-Phase). Diese muss anschließend den Personen, Organisationen 
etc., die sie benötigen, geeignet verfügbar gemacht werden (Dissemination- 
Phase). Im Erfolgsfall können damit dann die ursprünglichen Fragestellun- 
gen als beantwortet betrachtet werden. Es kann aber die Notwendigkeit ent- 
stehen, diese in veränderter Form erneut zu stellen oder auch komplett neue 
Informationsbedarfe zu formulieren, wodurch wiederum ein Durchlauf des 
Intelligence Cycle angestoßen wird. 


Das Konzept des Intelligence Cycle findet vor allem im Bereich der militäri- 
schen Aufklärung sowie im nachrichtendienstlichen Kontext Anwendung. Es 
wird als Metamodell aber auch in anderen Anwendungsbereichen wie z.B. 
der Marketing Intelligence [The18], d.h. der Sammlung und Analyse von Da- 
ten, Informationen und Wissen im Hinblick auf wichtige Schlüsselfaktoren 
für Marketingunterscheidungen von Unternehmen, eingesetzt. 


Für die streitkräftegemeinsame Nachrichtengewinnung und Aufklärung im 
multinationalen Kontext wird der Intelligence Cycle, auch unter Bezugnahme 
zu mit ihm interagierenden Prozessen und Funktionalitäten, in [NAT16] be- 
schrieben und detailliert. Die Sammlung der benötigten Daten und Informati- 
onsanteile erfolgt gemäß der dort vorgenommenen Präzisierung innerhalb des 
sog. Joint ISR (Intelligence, Surveillance, and Reconnaissance) Prozesses, eines 
weiteren zyklischen, aus unterschiedlichen Phasen bestehenden Prozesses. In 
diesen werden die im Intelligence Cycle formulierten Fragestellungen in ge- 
eigneter Weise eingespeist. Sie werden dafür so verfeinert, so dass sie mittels 
einer bestimmten, passend zu wählenden Intelligence Disziplin und innerhalb 
dieser mittels einer bestimmten Quelle beantwortet werden können. Jede der 
entsprechend verfeinerten Fragestellungen initialisiert dann eine Instanz des 
Joint ISR Prozesses. Hinsichtlich einer detaillierten Beschreibung des Joint ISR 
Prozesses und der Zusammenhänge zum Intelligence Cycle sei auf [Ess18a] 
verwiesen. Im Hinblick auf die Zuordnung von Aufgaben und Funktionalitä- 
ten der Informationsfusion zu diesen beiden operationellen Prozessen ist zu 
berücksichtigen, dass der Intelligence Cycle (im Sinne der Begriffsunterschei- 
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dung gemäß Abschnitt 2.2) die Informations- und die Wissensebene adres- 
siert. Die Gewinnung der relevanten Daten und Informationsanteile sowie 
die Interpretation gewonnener Daten durch Auswertung erfolgt im Joint ISR 
Prozess, der dementsprechend die Daten- und die Informationsebene adres- 
siert. 


Diese Beobachtung begründet auch die in [Bie06] getätigte Aussage, wonach 
Fusionsaufgaben, welche Level 2 und Level 3 des JDL Modells zuzuordnen 
sind, in den Bereich des Intelligence Cycle fallen. Fusionsaufgaben, welche 
Level 1 des JDL Modells zuzuordnen sind, könnten je nach ihrer konkreten 
Ausprägung entweder in den Bereich des Joint ISR Prozesses oder des Intel- 
ligence Cycle fallen. Grundsätzlich könnte dabei auch die prozessübergrei- 
fende Berücksichtigung möglicher Rückflüsse von höheren Ebenen des JDL 
Modells zu niederen Ebenen gewinnbringend sein. Beispielsweise könnte im 
Intelligence Cycle gewonnene Information bzw. daraus abgeleitetes Wissen 
zur Generierung von Hypothesen verwendet werden, welche dann im Joint 
ISR Prozess zur zielgerichteten Auswertung von Sensordaten beitragen kön- 
nen. Zu berücksichtigen ist dabei dann jedoch, dass dieser Bezug bei der Ein- 
speisung der im Joint ISR Prozess gewonnenen Resultate in den Intelligence 
Cycle in geeigneter Weise explizit gemacht bzw. erhalten werden muss. Dies 
ist nötig um zu vermeiden, dass bei einer Fusion im Intelligence Cycle die 
den Hypothesen zugrundeliegende Information möglicherweise übergewich- 
tet wird, da fälschlicherweise angenommen wird, dass sie von zwei vonein- 
ander unabhängigen Quellen stammt. 


2.4.4 Topologie und Aufgabenverteilung 


Hinsichtlich zugrundeliegender Topologie und vorgenommener Aufgaben- 
verteilung lassen sich zentralisierte, verteilte und dezentrale Fusionsarchitek- 
turen unterscheiden. Eine wichtige Mischform dieser Architekturtypen stel- 
len hierarchische Fusionsarchitekturen dar. 


Einen Überblick über diese Architekturtypen liefern die Referenzen [Cas13, 
Hal97, Man94, Kle04, Kha09, Mit07], welche auch als Grundlage für die nach- 
folgende Aufarbeitung des Themas dienten. Zusätzlich herangezogen wurde 
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dabei noch die Referenz [Lig08], die sich dadurch auszeichnet, dass die Au- 
toren das Thema speziell im Hinblick auf die Informationsfusion in System- 
verbünden beleuchten. 


In der Fachliteratur finden sich über die eingangs genannten vier Architek- 
turtypen hinaus noch weitere Unterscheidungen, vgl. hierzu z. B. [Kha09]. 
Diese sind für den im vorliegenden Abschnitt intendierten Überblick jedoch 
nicht von zentraler Bedeutung. Weiter ist anzumerken, dass die in der Litera- 
tur verwendeten Begrifflichkeiten zur Bezeichnung unterschiedlicher Archi- 
tekturtypen nicht einheitlich sind. 


Wie die nachfolgende Darstellung genauer verdeutlichen wird, hängt die Fra- 
ge nach dem jeweils geeignetsten Architekturtyp von vielfältigen Faktoren 
ab. Hierzu zählen die verfügbaren Ressourcen (Rechenleistung und Speicher- 
kapazität in den Komponenten, verfügbare Bandbreiten in einem Netzwerk 
aus unterschiedlichen Komponenten) ebenso wie die bei den einzelnen Kom- 
ponenten verfügbaren bzw. realisierbaren Fähigkeiten. Weitere Faktoren kön- 
nen einerseits die Qualität der von den Informationsquellen gelieferten Bei- 
träge und anderseits die konkreten Anforderungen an die mittels der Fusion 
zu erzielenden Resultate sein. 


Je nach Anwendungsdomäne und -bereich können weiter auch operationel- 
le Prozesse, wie sie z.B. in Abschnitt 2.4.3.5 für den Fall der streitkräftege- 
meinsame Nachrichtengewinnung und Aufklärung im multinationalen Kon- 
text beschrieben wurden, bestimmte Randbedingungen vorgeben. Gerade in 
organisationsübergreifenden Anwendungskontexten der Informationsfusion 
muss ggf. auch berücksichtigt werden, welche Information in welcher Form 
(z.B. in Rohform oder ausgewertet) überhaupt weitergegeben werden darf. 


2.4.4.1 Zentralisierte Fusionsarchitekturen 


Beim Vorliegen einer zentralisierten Fusionsarchitektur liefern die Informa- 
tionsquellen die von ihnen erfassten Beiträge nahezu unverarbeitet an eine 
zentrale Fusionseinheit, die die eigentliche Fusion samt den ggf. notwendi- 
gen Vorverarbeitungsschritten, z.B. im Hinblick auf die Transformation der 
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Informationsbeiträge in eine einheitliche formale Beschreibung und/oder den 
Übergang auf eine andere Abstraktionsebene, durchführt. 


Da die Informationsbeiträge hier praktisch in Rohform an die Fusionseinheit 
geliefert werden, kann sichergestellt werden, dass vor Eingang bei der Fusi- 
onseinheit zumindest durch Vorverarbeitung keine Nutzinformation verloren 
ging. Hierdurch ist es theoretisch gesehen einfacher, optimale Fusionsergeb- 
nisse zu erzielen (vgl. [Kle04], [Man94] und [Mit07]). Insbesondere können 
auch fehlerhafte Informationsbeiträge ggf. einfacher in der Zusammenschau 
identifiziert werden (vgl. [Man94]). In [Cas13] wird allerdings darauf hinge- 
wiesen, dass sich die Aussage hinsichtlich der Optimalität zentralisierter Fu- 
sionsarchitekturen bei ihrer praktischen Umsetzung oftmals nicht bewahr- 
heitet. Als ein Grund hierfür ist sicher anzuführen, dass die letztlich erzielte 
Güte noch von weiteren Faktoren, z.B. im Hinblick auf die Übertragung der 
Informationsbeiträge, welche unverfälscht und zeitgerecht erfolgen sollte, ab- 


hängt. 


Bei einer zentralisierten Fusionsarchitektur müssen in den der Fusionseinheit 
vorgelagerten Komponenten keine Funktionalitäten hinsichtlich der Vorver- 
arbeitung der Informationsbeiträge vorgesehen werden. Dies könnte z.B. die 
Einbindung kostengünstiger Sensoren ohne eigene Verarbeitungsfunktiona- 
litäten erleichtern. Die Fusionseinheit kann auf den praktisch in Rohform ein- 
gehenden Informationsbeiträgen im Prinzip unterschiedliche konkrete Aus- 
prägungen der Fusion (z. B. zur Beantwortung unterschiedlicher Fragestellun- 
gen oder zur Präzisierung gewonnener Erkenntnisse) durchführen, ohne dass 
die Notwendigkeit besteht, zusätzliche Information bei den Informationsquel- 
len anzufordern, was z.B. ein Vorteil sein kann, wenn diese die erfassten Infor- 
mationen nicht speichern oder wenn sie im Netzwerk nicht durchgehend ver- 
fügbar sind. Während der Verarbeitung gewonnene Zwischenergebnisse kön- 
nen bei entsprechender Ausgestaltung der Speichermodalitäten dafür in der 
Fusionseinheit vorgehalten und ggf. weiterverwendet werden. Zentralisier- 
te Fusionsarchitekturen können auch generell fehlertoleranter sein, z.B. wird 
in [Kle04] darauf hingewiesen, dass für die Aufgabenstellung des Trackings 
von Objekten insbesondere im Fall zentralisierter Fusionsarchitekturen Al- 
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gorithmen, welche das Fehlen einzelner Sensorergebnisse tolerieren, gezielt 
umsetzbar sind. 


Allerdings sind bei einer zentralisierten Fusionsarchitektur, bedingt durch die 
Übermittlung von Information in nahezu Rohform, die erforderlichen Band- 
breiten und die bei der Fusionseinheit anfallenden Verarbeitungskosten im 
Allgemeinen relativ hoch. Dadurch kann es eher zu zeitlichen Verzögerungen 
bei der Übermittlung und/oder Verarbeitung der Informationsbeiträge kom- 
men. Liefern die Informationsquellen z. B. umfangreiche Mengen an erfassten 
Bilddaten, so könnte auch gut der Fall auftreten, dass die im Netzwerk ver- 
fügbaren Bandbreiten grundsätzlich nicht ausreichen, um die Übermittlung 
der entsprechend hohen Datenmengen zu realisieren. Sind in einem System- 
verbund abgesetzte Einheiten (z.B. Systeme auf Schiffen) vorhanden, welche 
nur über sehr begrenzte Bandbreiten angebunden sind und dazu ggf. auch 
nur zu bestimmten Zeiten Information übermitteln können, so ist zumindest 
in Bezug auf die entsprechenden Anteile des Verbunds der Ansatz einer zen- 
tralisierten Fusionsarchitektur ebenfalls zumindest als schwierig, wenn nicht 
gar als unrealistisch, zu betrachten. 


Werden beim Vorliegen einer zentralisierten Fusionsarchitektur zusätzliche 
Informationsquellen verfügbar und/oder sind neue Arten von Informations- 
beiträgen zu verarbeiten, so muss die Fusionseinheit in der Lage sein, durch 
Vorhaltung entsprechender Kapazitäten und geeigneter, ggf. neu zu ergänzen- 
der, spezifischer Algorithmen auch diese Information adäquat zu handhaben. 
Die hierfür ggf. erforderliche Modifikation bzw. Erweiterung einer zentrali- 
sierten Fusionsarchitektur ist im Vergleich zu alternativen Fusionsarchitektu- 
ren in der Regel als eher schwierig anzusehen. 


In [Kle04] wird auch auf die im Verhältnis recht hohe Verwundbarkeit zentra- 
lisierter Fusionsarchitekturen hingewiesen - in dem Sinne, dass durch einen 
Ausfall der zentralen Fusionseinheit oder der auf diese ausgerichteten Kom- 
munikationsstruktur das resultierende Gesamtsystem ebenfalls komplett aus- 
fällt, also nicht einmal mehr Teilergebnisse verfügbar sind. In [Man94] wird 
hinsichtlich dieser Problematik auf die Möglichkeit des Vorsehens einer Back- 
Up-Komponente für die Fusionseinheit hingewiesen, jedoch verbunden mit 
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der Kritik, dass hierfür zusätzliche Ressourcen benötigt werden, welche letzt- 
lich auch besser genutzt werden könnten. 


2.4.4.2 Verteilte Fusionsarchitekturen 


Bei einer verteilten Fusionsarchitektur werden die Informationsbeiträge im 
Hinblick auf die nachgelagerte, in einer Fusionseinheit durchgeführte Fusion 
vorverarbeitet, bevor sie dorthin übertragen werden. Beispielsweise könnten 
aus Bilddaten bereits Positionsschätzungen für sich in den Bildern befindende 
Objekte gewonnen werden. 


Bei einer verteilten Fusionsarchitektur können die zur Übermittlung der In- 
formationsbeiträge erforderlichen Bandbreiten und die bei der Fusionseinheit 
erforderlichen Ressourcen zu deren Weiterverarbeitung in der Regel geringer 
gehalten werden als bei einer zentralisierten Fusionsarchitektur. Das Vorhal- 
ten dedizierter, jeweils bestmöglich auf die einzelnen Informationsquellen an- 
gepasster Verarbeitungsmethoden in den vorgelagerten Komponenten kann 
dazu beitragen, dass die in den einzelnen Informationsbeiträgen vorliegende 
Nutzinformation in optimaler Weise erschlossen wird. Ist die Vorverarbeitung 
bereits so ausgestaltet, dass sie die Informationsbeiträge in eine einheitliche 
formale Beschreibung überführt, so kann auf das Vorhalten spezifischer Ver- 
arbeitungsmethoden für bestimmte Arten von Information in der Fusionsein- 
heit verzichtet werden. Als Konsequenz können bei einer verteilten Fusions- 
architektur Informationsquellen i. A. leichter hinzugefügt oder ausgetauscht 
werden, als es bei einer zentralisierten Fusionsarchitektur der Fall ist. 


Allerdings müssen bei einer verteilten Fusionsarchitektur die entsprechend 
benötigten Verarbeitungsmethoden bei den der Fusionseinheit vorgelager- 
ten Komponenten auch verfügbar sein und die bei diesen dadurch anfallen- 
den Verarbeitungskosten müssen bei der konkreten System-Ausgestaltung 
berücksichtigt werden und auch tragbar sein. 


Gegebenenfalls kann das Vorsehen eines bidirektionalen Informationsaustau- 
sches sinnvoll sein, um so auch Informationsrückflüsse von der Fusionseinheit 
zu den vorgelagerten Komponenten zu ermöglichen (vgl. [Man94]). Beispiels- 
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weise könnte es für die Lokalisierung von Objekten zu einem bestimmten 
Zeitpunkt in den vorgelagerten Komponenten hilfreich sein, wenn die Fusi- 
onseinheit diesen durch die Fusion verbesserte Schätzungen der Objektposi- 
tionen in Bezug auf frühere Zeitpunkte verfügbar macht. 


Die Umsetzung einer verteilten Fusionsarchitektur ist nicht immer möglich, 
z.B. dann nicht, wenn die in den Informationsbeiträgen vorhandene Nutzin- 
formation nicht ausreichend verlustfrei individuell verarbeitet werden kann 
oder wenn Abhängigkeiten zwischen den Informationsbeiträgen bestehen, 
welchen im Rahmen der individuellen Verarbeitung nicht ausreichend Rech- 
nung getragen werden kann. 


Die Frage, wie man Abhängigkeiten zwischen den Informationsbeiträgen in 
geeigneter Weise Rechnung tragen kann, stellt generell oftmals eine Heraus- 
forderung im Hinblick auf die Ausgestaltung verteilter Fusionsarchitekturen 
dar. Eine verteilte Fusionsarchitektur kann dagegen dann prädestiniert sein, 
wenn die Informationsquellen unterschiedliche z. B. physikalische Prinzipien 
zur Informationserfassung einsetzen und die ihnen überlagerten Störungen 
unabhängig sind, so dass man davon ausgehen kann, dass keine derartigen 
Abhängigkeiten bestehen, vgl. hierzu auch [Kle04]. 


2.4.4.3 Dezentrale Fusionsarchitekturen 


Bei einer dezentralen Fusionsarchitektur gibt es keine zentrale Fusionseinheit, 
statt dessen erfolgt die Fusion in unterschiedlichen Fusionsknoten, an welche 
die Informationsquellen ihre Beiträge liefern. Ein spezieller Fall ist der, dass 
eine Eins-zu-eins-Entsprechung zwischen Informationsquellen und Fusions- 
knoten besteht, in dem Sinne, dass die Informationsquellen selbst auch die 
Fusionsknoten darstellen. 


Im Vergleich zu Systemen, die auf einer zentralisierten oder einer verteilten 
Fusionsarchitektur beruhen, zeichnen sich Systeme, die auf einer dezentralen 
Fusionsarchitektur beruhen, oftmals durch höhere Skalierbarkeit und Robust- 
heit sowie ein höheres Maß an Modularität aus (vgl. [Man94] und [Mit07]). 
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Während in zentralisierten und verteilten Fusionsarchitekturen letztlich aus- 
schließlich ein vertikaler Informationsfluss erfolgt, kann mittels dezentraler 
Fusionsarchitekturen der Anforderung nach einem horizontalen Informati- 
onsfluss Rechnung getragen werden. Dies ist u.a. gerade im Hinblick auf die 
Informationsfusion in system-, ebenen- und/oder organisationsübergreifen- 
den Verbünden, wo der Einsatz von sog. Stove-Pipe-Systemen in der Regel 
nicht zielführend ist, von Relevanz. Siehe hierzu auch [Lig08]. 


Bei entsprechender Ausgestaltung einer dezentralen Fusionsarchitektur kann 
auch ein übergeordneter (gesamthafter) Fusionsprozess iterativ umgesetzt 
werden. Ein recht anschauliches Beispiel hierfür findet sich in [Ald05], wo 
der Fall adressiert wird, dass unterschiedliche Sensorknoten in einem iterati- 
ven Prozess ihre Informationen austauschen und aktualisieren, bis sie einen 
Konsens im Hinblick auf die Gültigkeit einer Hypothese erreicht haben. Der 
Einsatz dezentraler Fusionsarchitekturen bzw. von Architektur-Mischformen, 
welche dezentrale Architekturbestandteile enthalten, kann darüber hinaus 
auch erfolgen, um z.B. in Verbünden, in denen unterschiedliche Entschei- 
dungsträger unterschiedliche Information benötigen, dafür zu sorgen, dass in 
den Fusionsknoten eines entsprechend vernetzen Systems jeweils genau die 
Information (in der erforderlichen Güte) bereitgestellt wird, welche auch tat- 
sächlich benötigt wird. Siehe hierzu auch [Lig08]. Dies ist insbesondere auch 
eine wesentliche Voraussetzung, um ein optimales Ressourcenmanagement 
in solchen Verbünden überhaupt realisieren zu können. 


Selbstverständlich muss auch bei der Ausgestaltung dezentraler Fusionsarchi- 
tekturen eventuellen Abhängigkeiten zwischen den Beiträgen der Informati- 
onsquellen geeignet Rechnung getragen werden. Dies könnte je nach konkre- 
tem Anwendungsszenario algorithmisch oder ggf. auch organisatorisch ge- 
schehen. 


Eine besondere Herausforderung bei der Umsetzung einer dezentralen Fusi- 
onsarchitektur besteht in der Ausgestaltung des Informationsflusses zwischen 
den Knoten untereinander und damit verbunden mit der konkreten Festle- 
gung ihrer Verbindungen. Wird diese Aufgabe nicht adäquat gelöst, so kann 
zum einen ein unnötig hoher Kommunikationsaufwand resultieren. Man be- 
trachte hierzu z.B. den Extremfall eines Systems, in dem die Fusionsknoten 
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untereinander komplett vernetzt sind und in dem jeder Fusionsknoten seine 
Information zu allen anderen Fusionsknoten propagiert. Das Vorsehen zusätz- 
licher, d. h. über das erforderliche Mindestmaß hinausgehender Verbindungen 
zwischen den Knoten kann dabei jedoch grundsätzlich die Robustheit des Sys- 
tems unterstützen, indem Verbindungsausfälle kompensierbar sind. Im Falle 
eines weiträumig vernetzten Systems sollte auch berücksichtigt werden, dass 
die Informationsflüsse möglichst so ausgestaltet sein sollten, dass Information 
nicht unnötigerweise über weite Entfernungen propagiert wird. Gegebenen- 
falls muss bei der Ausgestaltung der Informationsflüsse auch Bandbreitenbe- 
schränkungen zwischen den einzelnen Knoten Rechnung getragen werden. 


Weiter muss auch verhindert werden, dass bestimmte Information über un- 
terschiedliche Verbindungen und/oder zu unterschiedlichen Zeitpunkten un- 
beabsichtigt in redundanter Weise in die Fusion eingeht und das Ergebnis ver- 
fälscht. Diese Problematik wird im nächsten Abschnitt im Kontext hierarchi- 
scher Fusionsarchitekturen noch genauer dargestellt werden. 


Abschließend sei angemerkt, dass es bei einer dezentralen Fusionsarchitektur 
i. A. eher schwierig ist, den Fusionsprozess zu überwachen und zu steuern, 
da dieses Architekturkonzept letztlich inhärent keine entsprechende globale 
Struktur vorsieht. Vgl. hierzu auch [Kha09]. 


2.4.4.4 Hierarchische Fusionsarchitekturen 


Hierarchische Fusionsarchitekturen stellen eine Mischform der vorgenannten 
drei Architekturtypen dar. In einer hierarchischen Fusionsarchitektur findet 
die Fusion auf unterschiedlichen Hierarchiestufen statt. In der Regel findet 
sich auf der obersten Stufe der Hierarchie ein zentraler Fusionsknoten, wäh- 
rend auf den niederen Stufen der Hierarchie lokale Fusionsknoten bereits be- 
stimmte Anteile der vorliegenden Information gemäß den Prinzipien zentra- 
lisierter oder auch verteilter Fusionsarchitekturen fusionieren. Auf Basis ei- 
ner hierarchischen Fusionsarchitektur lässt sich dann insbesondere auch eine 
schrittweise Fusion, wie sie in Abb. 2.4 illustriert wurde, umsetzen. 
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Wie bei dezentralisierten Fusionsarchitekturen besteht auch bei hierarchi- 
schen Fusionsarchitekturen die Gefahr, dass redundant in die Fusion einge- 
hende Information das Ergebnis verfälscht. Abb. 2.12 illustriert diese Proble- 
matik anhand eines einfachen Beispiels. In diesem Beispiel liefern fünf In- 
formationsquellen Q,,s € {1,...,5}, ihre Beiträge an drei Fusionsknoten F4, 
Fz und Fo. Die Verbindungen sind so ausgestaltet, dass der Fusionsknoten 
Fo letztlich alle Information empfängt. Die von den Quellen Q; und Q, ge- 
lieferte Information wird im Knoten F4 fusioniert und muss dann weiter an 
Fg geleitet werden, z.B. da sie dort von einem Entscheidungsträger benötigt 
wird. In diesem Knoten erfolgt auch die Fusion dieser Information mit den von 
Q; und Q, gelieferten Beiträgen. Der Knoten Fp liefert sein Fusionsresultat 
dann an Fo. Die in F4 fusionierte Information wird zusätzlich noch direkt an 
Fo geliefert, wodurch sich z.B. ein möglicher Ausfall des Informationsflusses 
zwischen F4 und Fg zumindest im Hinblick auf den Informationsstand in Fo 
kompensieren lässt. Wird bei Fç unabhängig davon, ob der Informationsfluss 
von F4 nach Fg erfolgte oder nicht, stets die direkt von F4 kommende In- 
formation mit der von Fg und Q; gelieferten Information fusioniert, so kann 
dies zu einer Ubergewichtung der von F4 gelieferten Information und damit 
zu einer Verfälschung des Fusionsergebnisses führen. 


Abbildung 2.12: Illustration eines redundanten Informationsflusses (blau, rot) in einer hierar- 
chischen Fusionsarchitektur. 


Redundante Informationsflüsse sind oftmals nicht derart direkt aus der Netz- 
werkstruktur ersichtlich, z. B. beim Vorliegen von sehr umfangreichen Struk- 
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turen oder bei von über die Zeit ablaufenden Fusionsprozessen. In [Lig08] 
wird die Problematik nicht direkt aus der Netzwerkstruktur erkennbarer red- 
undanter Informationsflüsse sehr anschaulich anhand sog. Informationsgra- 
phen, die die Informationsflüsse über die Zeit verdeutlichen, aufgezeigt. 
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3.1 Festlegung der Basisgrößen 


Wie in Abschnitt 2.1 dargestellt besteht das Ziel der Informationsfusion letzt- 
lich darin, die in Bezug auf den in einer konkreten Aufgabenstellung interes- 
sierenden Sachverhalt vorherrschende Unsicherheit gezielt zu reduzieren. 


Vor der eigentlichen Durchführung einer Fusionsaufgabe mit mathemati- 
schen Methoden ist es notwendig, den interessierenden Sachverhalt formal 
zu beschreiben. Hierzu wird in der vorliegenden Arbeit der Vektor 


Z ¿= (21... ZN)E Z :=ZıX..XZn , (3.1) 


eingeführt. Dieser Vektor fasst die Größen des Interesses, d. h. die Parameter 
des nicht direkt beobachtbaren „State of Nature“', über welche in der konkre- 
ten Aufgabenstellung Information erlangt werden soll, zusammen. Gemäß der 
Festlegung in Gleichung (3.1) wird davon ausgegangen, dass z prinzipiell Wer- 
te aus einer Menge Z annehmen kann und es bezeichnet Z,, den Wertebereich 
der n-ten Komponente Z, von zZ, n E {1,...,N}, N EN. 


Weiter ist es notwendig, vor der eigentlichen Durchführung der Fusion die zur 
Lösung der Fusionsaufgabe vorliegenden Informationsbeiträge ebenfalls for- 
mal zu beschreiben. Bezeichnet d, den von der Informationsquelle Nummer 
s gelieferten Informationsbeitrag, s € {1,...,S}, welcher grundsätzlich Werte 
aus der Menge D, annehmen kann, so fasst der Vektor 


d :=(d),...,ds) E D := D, X...X Ds (3.2) 


* Diese Terminologie ist angelehnt an die statische Entscheidungstheorie, vgl. z. B. [Ber85]. 
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die von den S € N Informationsquellen insgesamt gelieferte Information zu- 
sammen. Die Menge D bezeichnet dabei den Wertebereich des Vektors d, d.h. 
die Menge der grundsätzlich möglichen Werte von d. 


In einer konkret vorliegenden Fusionsaufgabe ist der Wert von d bekannt. Auf 
dieser Basis soll dann im Rahmen der Fusion ein Rückschluss auf den in der 
konkreten Aufgabe vorliegenden Wert von z, welcher nicht direkt erfassbar 
ist, erfolgen. Bei der Bayes’schen Fusionsmethodik geschieht dies auf Basis 
Bayes’scher Inferenz, einem Ansatz aus dem Bereich der induktiven Statistik. 
Die in den nachfolgenden Abschnitten dargestellte Rückführung eines Fusi- 
onsproblems auf ein Problem der induktiven (Bayes’schen) Statistik wurde in 
den Grundzügen zuvor erstmals in [Bey06a] und [Bey06b] veröffentlicht. 


3.2 Fusion als statistische Inferenz 


Induktive statistische Verfahren haben das Ziel, ausgehend von bestimmten 
Beobachtungen einen Rückschluss auf die zu den Beobachtungen führende 
Ursache zu ziehen. Dabei wird angenommen, dass der Rückschluss i. A. unsi- 
cherheitsbehaftet, also insbesondere nicht eindeutig möglich ist. 


Im Kontext der Informationsfusion entsprechen die Beobachtungen gerade 
den von den Informationsquellen gelieferten Informationsbeiträgen, welche 
im Vektor d zusammengefasst sind. Die Ursache, auf die zurück geschlossen 
werden soll, ist der durch den Vektor z verkörperte, in der konkreten Auf- 
gabe interessierende Sachverhalt. z nimmt in der konkret vorliegenden Fusi- 
onsaufgabe zwar einen festen „wahren“ Wert an, dieser ist jedoch nicht direkt 
beobachtbar. Er äußert sich aber gerade in der konkreten Ausprägung der er- 
fassten Informationsbeiträge, d.h. im Wert von d. Das Ziel der Informations- 
fusion ist es nun, unter bestmöglicher Ausnutzung der durch d verkörperten 
Information einen Rückschluss bezüglich des „wahren“ Werts von z zu zie- 
hen, vgl. Abb. 3.1 . Hierfür ist es notwendig, den Zusammenhang zwischen z 
und d und die korrespondierenden Unsicherheiten adäquat mathematisch zu 
beschreiben. 
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Zielgrößenraum Z Beobachtungsraum D Zielgrößenraum Z 


a) Rückschluss 
kausaler (Inferenz) 


Zusammenhang 


p(d|z) l(d|z) 


Abbildung 3.1: Informationsfusion aufgefasst als statistische Inferenz. Abbildung angelehnt an 
[Beyo6b]. 


Der sog. Grundannahme der induktiven Statistik (vgl. [Rüg99]) folgend wird 
d hierfür als Realisierung einer Zufallsvariablen angesehen, deren Verteilung 
nicht vollständig bekannt ist. Auf Basis des Wissens, welches unabhängig von 
der konkreten Beobachtung des Werts von d vorliegt, wird eine Verteilungs- 
annahme formuliert. Diese besteht in der Angabe einer Menge von Verteilun- 
gen verbunden mit der Annahme, dass die Verteilung der Zufallsvariablen d 
in dieser Verteilungsklasse enthalten ist. Zur Formulierung der Verteilungsan- 
nahme wird konkret das Wissen bezüglich des Übergangs von z zu d verwen- 
det. Der Rückschluss von d auf z korrespondiert dann mit einer genaueren 
Aussage über die Verteilung von d oder über bestimmte Kennwerte dieser 
Verteilung. Die Erarbeitung entsprechender Verfahren stellt das sog. Grund- 
problem der statistischen Inferenz (vgl. [Rüg99]) dar. 


In der vorliegenden Arbeit wird angenommen, dass alle Zufallsvariablen, 
welche in die Modellierung eines Fusionsproblems eingehen, diskret, absolut 
stetig oder gemischt diskret absolut stetig sind. Mit der Bezeichnung gemischt 
diskret absolut stetig ist im Fall mehrdimensionaler Zufallsvariablen gemeint, 
dass ihre Komponenten teilweise diskret und teilweise absolut stetig sind. 
Die Verteilung einer solchen Zufallsvariablen lässt sich dann eindeutig durch 
eine Wahrscheinlichkeitsfunktion (diskreter Fall), durch eine Wahrschein- 
lichkeitsdichtefunktion (kontinuierlicher, absolut stetiger Fall) bzw. durch 
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eine Mischung derselben (gemischter Fall) beschreiben (vgl. hierzu z.B. auch 
[Hen10] sowie [DeG70] für den gemischt diskret absolut stetigen Fall). Im 
Folgenden wird für diese wahrscheinlichkeitstheoretischen Funktionen ein- 
heitlich der Begriff Wahrscheinlichkeitsverteilung bzw. (verkürzt) Verteilung 
verwendet. Um unnötige Fallunterscheidungen zu vermeiden, wird außerdem 
im Folgenden meist nur die kontinuierliche Schreibweise verwendet. 


Die Grundannahme der induktiven Statistik sagt damit dann gerade aus, dass 
der Zusammenhang zwischen d und z durch die Angabe einer durch z para- 
metrisierten Verteilungsklasse der Form {p(d|z)|z € Z}beschreibbar ist. Basis 
des Rückschlusses von d auf z in einer konkreten Fusionsaufgabe ist dann die 
sog. Likelihood-Funktion I(d|z), die im Wesentlichen mit p(d|z) korrespon- 
diert, wobei der Wert von d fixiert und der Wert von Z variabel ist. 


In der Regel kann aufgrund der auch nach der Durchführung der Informa- 
tionsfusion noch vorhandenen Restunsicherheit nicht zweifelsfrei von den 
Informationsbeiträgen auf den „wahren“ Wert der Größen des Interesses zu- 
rückgeschlossen werden, so dass unterschiedliche mögliche Werte von Z zu 
einem gewissen Mindestmaß mit dem vorliegenden Wert von d kompatibel 
sind. Dieser Sachverhalt ist in Abb. 3.1 durch die dunkler eingefärbte Ellipse 
in der rechtsseitigen Darstellung des Wertebereichs Z von z illustriert. Ei- 
ne Auswahl bezüglich eines eindeutigen Werts 2 oder auch einer Menge von 
Werten für z könnte durch Anwendung einer geeigneten Methode zur Punkt- 
oder Bereichsschätzung erfolgen. Durch Einbeziehung von Ansätzen aus dem 
Bereich der statistischen Entscheidungstheorie (vgl. z.B. [Ber85]) lassen sich 
auch anderweitige Entscheidungen bzw. Aktionen ableiten. 


Verfahren der statistischen Inferenz ist gemeinsam, dass Fakten und damit 
verbundene Unsicherheiten probabilistisch, d.h. auf Basis der Wahrschein- 
lichkeitstheorie, modelliert und propagiert werden. Sie erfordern deshalb ein 
grundsätzliches Verständnis des Wahrscheinlichkeitsbegriffs. 


56 


3.3 Wahrscheinlichkeit 


3.3 Wahrscheinlichkeit 


3.3.1 Mathematische Festlegung 


Die Basis der modernen Wahrscheinlichkeitstheorie stellt die Kolmogo- 
rov sche Axiomatik [Kol33] dar. Diese legt fest, welche Eigenschaften 
(absolute) Wahrscheinlichkeit als abstrakte mathematische Größe besitzen 
muss. Aus nachfolgenden beiden Definition wird deutlich, dass Wahrschein- 
lichkeit dabei mathematisch als normiertes Maß, d.h. als eine spezielle, über 
einem geeigneten Mengensystem definierte Funktion aufgefasst wird. 


Definition 3.1 spezifiziert im Wesentlichen die notwendige Struktur dieses 
Mengensystems: 


Definition 3.1. Sei Q eine nichtleere Menge. Ein Mengensystem A ist eine o- 
Algebra über Q, wenn A eine Teilmenge der Potenzmenge P(Q) von Q ist, welche 
folgende Anforderungen erfüllt: 


(a) BEA. 
(b) AusA EA folgtA :=Q\AEA. 
(c) Aus A; EA,i EN, folgt Uien AEA. 


Das Tupel (QA) heißt dann messbarer Raum und jede in A enthaltene Menge 
A heißt messbar. 


Definition 3.2 legt darauf aufbauend anhand der sog. Kolmogorov’schen Axio- 
me fest, welche Eigenschaften Wahrscheinlichkeit aus mathematischer Sicht 
erfüllen muss: 


Definition 3.2. Sei (Q,A) ein messbarer Raum und P eine auf A definierte 
reellwertige Funktion. Das Tripel (Q,A,P) heißt Wahrscheinlichkeitsraum, falls 
P die Kolmogorov’schen Axiome erfüllt: 


(a) Nichtnegativität: P(A) > 0 für alle A € A. 
(b) Normiertheit: P(Q) = 1. 
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(c) o-Additivität: Ist (A;)jen eine Folge disjunkter Mengen aus A, so gilt 


P heißt dann Wahrscheinlichkeitsmaß auf (QA) und Q heißt Grundraum. Jede 
in A enthaltene (d. h. messbare) Menge A wird Ereignis genannt. 


Das Wahrscheinlichkeitsmaß P weist also gerade den Ereignissen A € A ihre 
Wahrscheinlichkeit P(A) zu. Ist eine Teilmenge des Grundraums Q dagegen 
nicht in A enthalten, so stellt sie kein Ereignis dar und ihre Wahrscheinlich- 
keit ist nicht definiert. 


Gemäß der Festlegung eines Wahrscheinlichkeitsraums (Q,A,P) enthält der 
zugehörige Grundraum Q alle Ergebnisse, welche grundsätzlich eintreten 
können. Während das Ereignis Q deshalb sicher eintritt, tritt das Ereignis Ø 
sicher nicht ein. 


Ist Q abzählbar, so ist die Festlegung A = P(Q) üblich und wird oft nicht ex- 
plizit angegeben. In nachfolgender Abbildung 3.2 ist die entsprechende wahr- 
scheinlichkeitstheoretische Modellierung für den Fall eines Grundraums Q 
der Kardinalität vier graphisch illustriert. Das Wahrscheinlichkeitsmaß P ist 
hier eindeutig festgelegt durch seine Werte auf den Elementarereignissen, d.h. 
den einelementigen Teilmengen von Q. 


Im allgemeinen Fall muss die zu Q gehörige o-Algebra A jedoch aus mathe- 
matischen Gründen eine echte Teilmenge von P(Q) darstellen. Gilt Q = RK, 
k EN, so wählt man als zu Q gehörige o-Algebra oft ebenfalls ohne explizite 
Angabe derselben die sog. Borel’sche o-Algebra B(R*). Dies ist die kleinste o- 
Algebra, die alle offenen Teilmengen des R* enthält. Es gilt B(R*) # P(R*). 
Dabei umfasst B(R*) jedoch alle in der Praxis relevanten Teilmengen des RX. 
Vgl. hierzu z.B. [Geo07] oder [Hen10]. 


Aus den Kolmogorov’schen Axiomen lassen sich die gängigen Regeln für das 
Rechnen mit Wahrscheinlichkeitsmaßen ableiten. Die Forderung, dass (Q,A) 
einen messbaren Raum darstellen muss, garantiert dabei, dass das Rechnen 
mit Wahrscheinlichkeitsmaßen wohldefiniert ist. 
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> [0,1] 


Abbildung 3.2: Endlicher Wahrscheinlichkeitsraum (Q,A,P) mit |Q| = 4 und A = P(Q). 
Das Wahrscheinlichkeitsmaß P weist hier jeder Teilmenge A von Q ihre Wahr- 
scheinlichkeit P(A) € [0,1] zu. Die Menge der Elementarereignisse, mittels 
der P hier eindeutig festgelegt ist, ist in der Abbildung schraffiert markiert. Die 
Elementarereignisse haben die Form {w;} mit w; € Q, i € {1,2,3,4}. 


Die in Definition 3.2 vorgenommene Festlegung absoluter Wahrscheinlichkeit 
wird komplettiert durch die Festlegung bedingter Wahrscheinlichkeit (siehe 
z.B. [Geo07] oder [Irl05]). Diese legt fest, wie sich die Wahrscheinlichkeiten 
von Ereignissen ändern, wenn als Teilinformation bekannt wird, dass ein be- 
stimmtes Ereignis sicher eingetreten ist: 


Definition 3.3. Seien (Q,A,P) ein Wahrscheinlichkeitsraum undB € A ein 
Ereignis mit P(B) > 0. Dann ist für jedes Ereignis A € A die bedingte Wahr- 
scheinlichkeit von A gegeben B definiert durch 


P(AnB) 


P(AIB) := PO 


(3.3) 


Bei P(-|B) handelt es sich wieder um ein Wahrscheinlichkeitsmaß auf (0,A), 
vgl. z.B. [Geo07] für einen mathematischen Beweis. 


Die Wahrscheinlichkeitstheorie liefert mittels der in diesem Abschnitt ein- 
geführten Festlegungen eine Antwort auf die Frage, wie man Unsicherhei- 
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ten mittels Wahrscheinlichkeiten mathematisch beschreiben und verrechnen 
kann. Sie lässt dabei bewusst offen, wie Wahrscheinlichkeiten zu interpretie- 
ren sind. Als Konsequenz sind unterschiedliche Interpretationsmöglichkeiten 
zulässig. Dies ist ein wesentlicher Grund dafür, dass der Bereich der indukti- 
ven Statistik unterschiedliche Inferenzkonzepte umfasst. 


3.3.2 Interpretationsmöglichkeiten 


In der Fachliteratur finden sich diverse Möglichkeiten, Wahrscheinlichkeit zu 
interpretieren, vgl. z.B. [Gal17], [Goo59] und [Haj19]. Für den Kontext der 
vorliegenden Arbeit ist die Unterscheidung zwischen im frequentistischen 
Sinne interpretierter Wahrscheinlichkeit und Wahrscheinlichkeit, welche als 
sog. Degree-of-Belief (im Deutschen: Grad des Dafürhaltens) aufgefasst wird, 
wesentlich. Vgl. z.B. auch [Ait04] und [Bey99] zu dieser Unterscheidungs- 
möglichkeit. 


3.3.2.1 Frequentistische Interpretation 


Der frequentistischen Interpretation von Wahrscheinlichkeit liegt der Gedan- 
ke eines unendlich oft wiederholbaren Zufallsexperiments zugrunde. Ein Zu- 
fallsexperiment ist gemäß [Bei03] ein Experiment mit vorab bekannter Ergeb- 
nismenge und nichtdeterministischem Ausgang, das unter genau festgelegten 
Bedingungen zumindest gedanklich beliebig oft wiederholbar ist. 


Notiert h,(A) die Anzahl des Eintretens eines Ereignisses A bei k-maliger 
Wiederholung des Zufallsexperiments, k € N, so ist die relative Häufigkeit 
des Ereignisses A in den k Wiederholungen gegeben durch 


hx(A) 
co 


Y(A) := (3.4) 
Erfahrungsgemäß stabilisiert sich der Wert von 7,(A) bei einer zunehmen- 
den Anzahl k von Wiederholungen des Zufallsexperiments. Dieser Sachver- 
halt wird als empirisches Gesetz über die Stabilisierung relativer Häufigkeiten 
bezeichnet (vgl. [Hen10]). Bei der frequentistischen Interpretation von Wahr- 
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scheinlichkeit wird die Wahrscheinlichkeit P(A) des Ereignisses A aufgefasst 
als der Wert, gegen den sich die relative Häufigkeit r(A) dementsprechend 
erfahrungsgemäß stabilisiert. 


Es sei betont, dass es sich hierbei um eine Interpretation der Wahrschein- 
lichkeit P(A) des Ereignisses A, nicht um eine Definition im mathematischen 
Sinne handelt. Wie in [Hen10] dargestellt wäre der Versuch einer Definition 
von P(A) als Grenzwert der relativen Häufigkeit 4,(A) für k > oo als höchst 
problematisch anzusehen. Das empirische Gesetz über die Stabilisierung re- 
lativer Häufigkeiten stellt nämlich keinen mathematischen Beweis dafür dar, 
dass die Folge (r(A))xen tatsächlich gegen einen festen Grenzwert konver- 
giert, es drückt nur die auf einer endlichen Anzahl von Wiederholungen ba- 
sierende Erfahrung aus, dass der Wert .(A) sich mit zunehmender Anzahl 
der Wiederholungen k stabilisiert. Zudem wäre selbst im Falle der Konver- 
genz die exakte Ermittlung des Grenzwerts nicht möglich. Eine solche würde 
ja bedeuten, dass eine unendlich große Anzahl von Wiederholungen des ent- 
sprechenden Zufallsexperiments tatsächlich durchführbar sein müsste. 


3.3.2.2 Degree-of-Belief-Interpretation 


Bei der Degree-of-Belief-Interpretation von Wahrscheinlichkeit stellt die 
Wahrscheinlichkeit P(A) eines Ereignisses A ein quantitatives Maß für den 
bezüglich A vorliegenden Informationsstand bzw. komplementär ausge- 
drückt für die diesbezüglich vorhandene Unsicherheit dar. Wahrscheinlich- 
keiten im Sinne der Degree-of-Belief-Interpretation haben stets bedingten 
Charakter. Es gilt genau genommen P(A) = P(A|I), wobei I für die be- 
züglich A vorliegende Information steht. Die beiden Extremwerte Null und 
Eins korrespondieren damit, dass völlige Ungewissheit (im Fall P(A) = 0) 
bzw. vollständige Information (im Fall P(A) = 1) in Bezug auf den durch A 
verkörperten Sachverhalt vorliegt. 


Wahrscheinlichkeiten im Sinne der Degree-of-Belief-Interpretation von 
Wahrscheinlichkeit können objektiver oder subjektiver Natur sein. Bei der 
subjektiven Auffassung der Wahrscheinlichkeit P(A) als Degree-of-Belief 
verkörpert der Wert von P(A) sowohl die bezüglich A vorhandene Infor- 
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mation als auch die Überzeugung der diesen Wert festlegenden Person. Bei 
der objektiven Auffassung der Wahrscheinlichkeit P(A) als Degree-of-Belief 
müssen dagegen exakt die in Bezug auf A vorhandenen Fakten (und nur 
diese) bei der Festlegung des Wertes von P(A) berücksichtigt werden. Unter- 
schiedliche Personen, welchen die gleiche Information I bezüglich des durch 
A verkörperten Sachverhalts vorliegt, müssen in diesem Fall also auf den 
gleichen Wert für P(A) kommen. 


Wie z.B. in [Ber03] angeführt stellt die Degree-of-Belief-Interpretation von 
Wahrscheinlichkeit die weitreichendste Möglichkeit, Wahrscheinlichkeit zu 
deuten, dar. Insbesondere beschränkt sie sich hinsichtlich ihrer Anwendbar- 
keit nicht auf Wahrscheinlichkeiten von Ereignissen, welche in Bezug zu Zu- 
fallsexperimenten gesetzt werden können, wie es bei der frequentistischen 
Interpretation von Wahrscheinlichkeit der Fall ist. 


In der Fachliteratur finden sich sogar unterschiedliche Veröffentlichungen, 
in denen recht überzeugend formal begründet wird, dass Wahrscheinlichkeit 
im Sinne der Degree-of-Belief-Interpretation ein adäquates und generell aus- 
reichendes Maß darstellt, um die in Bezug auf einen interessierenden Sach- 
verhalt vorliegende Information oder komplementär ausgedrückt die diesbe- 
züglich vorhandene Unsicherheit zu beschreiben. Konkret angeführt hierzu 
seien die Referenzen [Ber04], [Cox61] und [Lin87]. Dabei muss jedoch auch 
erwähnt werden, dass hinsichtlich dieser Aussage keine Einigkeit in der Fach- 
literatur besteht, sie von anderen Autoren also wiederum in Zweifel gezo- 
gen wird. Ein häufiger Einwand (vgl. z.B. [Edw92] und [Roy97]) betrifft den 
Fall, dass keinerlei Information in Bezug auf den interessierenden Sachver- 
halt vorliegt, und damit verbunden die Frage, ob es in einer solchen Situati- 
on überhaupt angemessen ist, eine Wahrscheinlichkeitsaussage zur Beschrei- 
bung des Informationsstands zu verwenden. Hintergrund ist letztlich, dass 
eine solche Wahrscheinlichkeitsaussage zwangsläufig immer eine bestimmte 
Art von Festlegung macht und somit unvermeidbar doch bestimmte Informa- 
tion transportiert. 


Dieser Sachverhalt äußert sich gerade im Kontext der Bayes’schen Theorie 
dann dadurch, dass man Fälle konstruieren kann, in denen die sog. nichtinfor- 
mativen A-Priori-Verteilungen, welche das vollständige Nichtvorhandensein 
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von Information vor Bekanntwerden zusätzlicher Informationsbeiträge pro- 
babilistisch repräsentieren sollen, bei der Durchführung statistischer Analy- 
sen letztlich dann doch in bedeutendem Umfang Information in das Ergebnis 
einbringen bzw. zu Widersprüchen führen. Weiter sind diese nichtinformati- 
ven A-Priori-Verteilungen in der Regel auch nicht eindeutig und ggf. nicht 
normierbar. Vgl. hierzu z.B. auch [Ber04] und [Rüg99] sowie anteilig Ab- 
schnitt 3.5.1. 


Wenngleich man entsprechende Einwände nicht grundsätzlich ignorieren 
sollte, so lässt sich dennoch feststellen, dass für viele reale Aufgaben- 
stellungen der Informationsfusion die Degree-of-Belief-Interpretation von 
Wahrscheinlichkeit eine hinreichend mächtige und gut geeignete Möglich- 
keit zur Beschreibung und Weiterentwicklung der mit dem interessierenden 
Sachverhalt verbundenen Unsicherheit darstellt. Ein Verzicht auf eine Dif- 
ferenzierung von Unsicherheiten hinsichtlich ihrer Ursachen und Natur 
(Nichtdeterminismus, Unwissen, Unschärfe etc.) entspricht hier oftmals ei- 
nem sinnvollen pragmatischen Standpunkt (vgl. [Bey07]). Die Verwendung 
der Degree-of-Belief-Interpretation von Wahrscheinlichkeit hat insbesondere 
auch den Vorteil, dass sie oftmals dem intuitiven Verständnis von Unsicher- 
heit entspricht, das auch nicht speziell geschulte Personen mitbringen. Sie 
stellt damit insbesondere eine gute Basis im Hinblick auf die Umsetzung 
probabilistischer Verfahren, welche im Sinne von Abschnitt 2.3 ausreichend 
nachvollziehbar sind, dar. 


Im Hinblick auf die konkrete Problemstellung, das vollständige Nichtvorhan- 
densein von Information im Kontext der Wahrscheinlichkeitstheorie exakt 
mathematisch zu verkörpern, lässt sich festhalten, dass diese Problemstel- 
lung sicher noch nicht vollständig gelöst ist bzw. wohl auch gar nicht voll- 
ständig lösbar sein wird (vgl. hierzu auch [Bey99] und [Rüg99]). Jedoch stel- 
len die im Kontext der Bayes’schen Theorie entwickelten nichtinformativen 
A-Priori-Verteilungen in der Praxis oftmals gute Werkzeuge zur Lösung ent- 
sprechender Aufgabenstellungen dar. Es ist dabei allerdings wichtig, das die- 
sen Wahrscheinlichkeitsverteilungen zugrundeliegende Konzept nicht miss- 
zuverstehen und sie dementsprechend auch korrekt zu verwenden. Wie in 
[Iro97] dargestellt, müssen solche nichtinformativen A-Priori-Verteilungen 
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in dem Sinne aufgefasst werden, dass sie tatsächlich sehr wohl Information 
transportieren, diese jedoch im Hinblick auf ein bestimmtes statistisches Mo- 
dell und eine bestimmte Problemstellung derart ausgestaltet ist, dass die in 
Form von zusätzlichen Informationsbeiträgen bekannt werdende Informati- 
on die resultierenden Schlüsse dominiert. 


3.3.2.3 Beispiele 


In diesem Abschnitt werden die zwei zuvor eingeführten Möglichkeiten, 
Wahrscheinlichkeit zu interpretieren, anhand der nachfolgenden beiden 
Beispiele noch einmal verdeutlicht. 


Beispiel A: Eine faire Münze werde geworfen. Betrachtet wird die Aussage 
„Die Wahrscheinlichkeit, dass die Münze Kopf zeigt, beträgt 1/2“ 


Beispiel B: Betrachtet wird die Aussage: „Die Wahrscheinlichkeit, dass Tho- 
mas Bayes im Jahr 1701 geboren wurde, beträgt 3/10“ 


Beispiel A ist ein gängiges Beispiel zur Verdeutlichung der frequentistischen 
Interpretation von Wahrscheinlichkeit. Da die Münze fair ist, wird üblicher- 
weise bei einer sehr großen Anzahl von Wiederholungen des Münzwurfs in 
circa der Hälfte der Fälle das Ergebnis Kopf eintreten, siehe z.B. [Bei03] für 
eine Aufzeichnung entsprechender Versuche. Es sei jedoch angemerkt, dass 
sich die tatsächliche Messung des exakten Werts 1/2 auch mittels einer noch 
so großen Anzahl von Münzwürfen nicht in valider Form durchführen lässt 
(vgl. Abschnitt 3.3.2.1). Die Aussage in Beispiel A ist natürlich auch konsistent 
mit der umfassenderen Degree-of-Belief-Interpretation von Wahrscheinlich- 
keit. Die angegebene Wahrscheinlichkeit ist objektiv, denn der Wert 1/2 reprä- 
sentiert gerade die Information, dass die Münze fair ist und sich somit völlige 
Indifferenz hinsichtlich des Ergebnisses des Münzwurfs ergibt. 


Die Aussage in Beispiel B macht beim Zugrundelegen der frequentistischen 
Interpretation von Wahrscheinlichkeit keinen Sinn. Die Vorstellung eines 
wiederholbaren Zufallsexperiments im Zusammenhang mit dem Ereignis 
„Ihomas Bayes wurde im Jahr 1701 geboren“ ist abwegig. Die Aussage in Bei- 
spiel B lässt sich jedoch ohne Weiteres als Grad des Dafürhaltens, dafür, dass 
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Thomas Bayes im Jahr 1701 geboren wurde, verstehen. Sie ist also durchaus 
sinnvoll im Sinne der Degree-of-Belief-Interpretation von Wahrscheinlich- 
keit. Das Geburtsjahr von Thomas Bayes, des Namensgebers der Bayes’schen 
Theorie, ist tatsächlich nicht zweifelsfrei auf das Jahr 1701 datierbar (siehe 
[Ber04]). Der angegebene konkrete Wahrscheinlichkeitswert 8/10 wurde von 
der Autorin nach der Lektüre von [Ber04] gefühlsmäßig festgesetzt, so dass 
davon auszugehen ist, dass eine subjektive Wahrscheinlichkeit im Sinne der 
Degree-of-Belief-Interpretation vorliegt. 


3.4 Ansätze zur statistischen Inferenz 


In Abschnitt 3.2 wurden bereits die Grundannahme der induktiven Statistik 
und darauf basierend das Grundproblem statistischer Inferenz eingeführt. Die 
unterschiedlichen Möglichkeiten zur Interpretation von Wahrscheinlichkeit 
sind ein wesentlicher Grund dafür, dass es darauf basierend keine einheitliche 
Theorie statistischer Inferenz gibt, sondern dass statt dessen unterschiedliche 
Inferenzkonzepte nebeneinander bestehen. Die vollständige wahrscheinlich- 
keitstheoretische Modellierung eines Inferenz-Problems, die genaue Art und 
Weise, wie Rückschlüsse getroffen werden und wie diese bewertet werden, 
hängen entscheidend vom konkreten Inferenzkonzept ab. 


Im Folgenden wird ein kurzer (ausschnittsweiser) Überblick über die drei be- 
deutendsten Inferenzkonzepte gegeben mit dem Ziel, diese voneinander ab- 
zugrenzen und zugleich wichtige Grundlagen im Hinblick auf die vorliegende 
Arbeit einzuführen. 


3.4.1 Klassische Inferenz 


Der klassischen Inferenz liegt die frequentistische Interpretation von Wahr- 
scheinlichkeit zugrunde. Die wahrscheinlichkeitstheoretische Modellierung 
eines Inferenzproblems beschränkt sich auf die in Abschnitt 3.2 beschriebe- 
ne Einführung der Verteilungsklasse {p(d|z)|z € Z}. Während d dabei als 
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Realisierung einer Zufallsvariablen aufgefasst wird, nimmt z die Rolle einer 
deterministischen Konstanten ein. 


Der Rückschluss von d auf z erfolgt indirekt und wird von einem pre- 
experimentellen Standpunkt aus betrachtet. Genauer basiert er auf im 
frequentistischen Sinne zu interpretierenden Wahrscheinlichkeitsaussagen 
bezüglich d. Dabei werden dann notwendigerweise auch die möglichen Werte 
für d, die in der konkreten Aufgabe überhaupt nicht vorliegen, berücksichtigt. 


Beispielsweise könnte eine Bereichsschätzung für eine kontinuierliche, ein- 
dimensionale Größe des Interesses z durch Angabe eines sog. Konfidenzin- 
tervalls zu einem bestimmten Vertrauensgrad a erfolgen. Ein derartiges Kon- 
fidenzintervall zeichnet sich dadurch aus, dass bei einer großen Anzahl von 
Durchführungen des Zufallsexperiments, das zum Eintreten von d führt, er- 
fahrungsgemäß mindestens (1 — æ) - 100 Prozent der resultierenden Konfi- 
denzintervalle den „wahren“ Wert von z enthalten. Diese Aussage gleichzu- 
setzen mit der Aussage, dass der „wahre“ Wert von z mit Wahrscheinlichkeit 
1 — a im Konfidenzintervall enthalten ist, ist nicht zulässig. In einer konkre- 
ten Aufgabenstellung ist der „wahre“ Wert von z im aufgrund der konkreten 
Ausprägung von d resultierenden Konfidenzintervall enthalten oder nicht. 


Die Auffassung eines Fusionsproblems als Inferenzproblem im Sinne der klas- 
sischen Inferenz ist in Anbetracht der zugrundegelegten Interpretation von 
Wahrscheinlichkeit nur dann zulässig, wenn die im Vektor d zusammenge- 
fassten Informationsbeiträge tatsächlich als zufällig im frequentistischen Sin- 
ne angesehen werden können und der Übergang von z zu d tatsächlich (rein) 
als Nichtdeterminismus modelliert werden kann. Ein Fall, in dem dies z.B. 
möglich wäre, ist der, dass d die Werte, die sich bei mehrfacher Bestimmung 
der Position Z eines Objekts ergeben, spezifiziert, und dass die erfassten Positi- 
onsangaben aufgrund von nicht systematischen Messabweichungen unsicher 
im frequentistischen Sinne sind. 
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3.4.2 Bayes’sche Inferenz 


Der Bayes’schen Inferenz liegt die Degree-of-Belief-Interpretation von Wahr- 
scheinlichkeit zugrunde. Dabei wird der Informationsstand in Bezug auf jede 
der in die Fusionsaufgabe involvierten Größen durch geeignete Wahrschein- 
lichkeitsverteilungen ausgedrückt, d.h. sowohl d als auch z werden als Zu- 
fallsvariablen aufgefasst. 


Ein Bayes’sches statistisches Modell ergänzt dementsprechend die mit der 
Verteilungsklasse {p(d|z)|z € Z} korrespondierende probabilistische Mo- 
dellierung durch die Einführung der sog. A-Priori-Verteilung p(z). Arbeitet 
man mit objektiven Degree-of-Belief-Verteilungen', wovon im Kontext der 
Informationsfusion in der Regel auszugehen sein wird, so repräsentiert die 
A-Priori-Verteilung gerade das Vorwissen do, welches bezüglich des „wah- 
ren“ Werts von Z zusätzlich zu den von den Informationsquellen gelieferten 
Beiträgen verfügbar ist. Wie jede wahrscheinlichkeitstheoretische Aussage 
im Sinne der Degree-of-Belief-Interpretation von Wahrscheinlichkeit hat 
also auch die A-Priori-Verteilung bedingten Charakter, d.h. die Notation 
p(z) steht abkürzend für p(z|dy). Anders als die klassische Inferenz bietet 
die Bayes’sche Inferenz mittels der A-Priori-Verteilung somit einen Weg, 
zusätzlich zu der von d gelieferten Information verfügbares Wissen bezüglich 
z in koordinierter Weise in die Inferenz einzubringen. 


Gemäß der Degree-of-Belief-Interpretation von Wahrscheinlichkeit stellt 
dann die sog. A-Posteriori-Verteilung p(z|d) := p(z|d,do) die vollständige 
Verkörperung des Informationsstands bezüglich z unter Berücksichtigung 
der von dọ und d gelieferten Information dar. Sie berechnet sich gemäß dem 
Satz von Bayes’, einer Rechenregel aus der Wahrscheinlichkeitstheorie: 


p(d|z)p(z) 


pad) = F papaz * 


(3.5) 


* Unter einer Degree-of-Belief-Verteilung ist eine Wahrscheinlichkeitsverteilung im Sinne der 
Degree-of-Belief-Interpretation von Wahrscheinlichkeit zu verstehen. 
Ein Beweis des Satzes von Bayes findet sich z.B. in [Ber04]. 


67 


3 Bayes’sche Fusion 


Der Nenner in Gleichung (3.5) korrespondiert gerade mit der Marginalver- 
teilung von p(d) von d. Da in einer konkreten Aufgabenstellung der Wert 
von d (wie auch der Wert von dọ) fest ist, alle involvierten Größen also rein 
als Funktionen von z betrachtet werden, lässt sich Gleichung (3.5) abkürzend 
schreiben als 


p(zld) x p(d|z)p(Z) . (3.6) 


Wie bereits in Abschnitt 3.2 erwähnt wird p(d|z) bei Zugrundelegung des in 
einer konkreten Aufgabe festen Werts von d als Likelihood-Funktion bezeich- 
net und im Folgenden explizit als [(d|z) notiert. Aufgefasst als Funktion von 
z stellt diese Größe i. A. keine Wahrscheinlichkeitsverteilung dar. Wie aus 
Gleichung (3.6) erkennbar ist, genügt es zur Durchführung der Bayes’schen 
Inferenz letztlich, wenn I(d]z) bis auf einen (von z unabhängigen) Proportio- 
nalitätsfaktor bekannt ist. In diesem Sinne lässt sich die Likelihood-Funktion 
auch allgemeiner definieren als die Klasse von Funktionen, welche für festes 
d proportional zu p(d|z) sind (vgl. hierzu z.B. auch [Edw92], [Gho06] und 
[Koc14]). Es lässt sich also verallgemeinert festlegen: 


I(d|z) := cq - p(diz), (3.7) 


wobei cg eine beliebige, jedoch für alle Werte z € Z gleich zu wählende Kon- 
stante ist. 


Im Kontext der Bayes’schen Inferenz kommt der A-Posteriori-Verteilung 
p(z|d) fundamentale Bedeutung zu. Unter Zugrundelegung der Rechenre- 
geln der Wahrscheinlichkeitstheorie verbunden mit der Interpretation von 
Wahrscheinlichkeit als Degree-of-Belief stellt sie letztlich die einzig stimmige 
probabilistische Verkörperung des gesamten Informationsstands bezüglich 
des „wahren“ Werts von z dar. Anders als bei der klassischen Inferenz kann 
dadurch, dass auch z als Zufallsgröße aufgefasst wird, hier also tatsächlich 
direkt probabilistisch auf den „wahren“ Wert von z zurückgeschlossen wer- 
den und die Bewertung der Güte des Rückschlusses sowie die Ableitung 
spezifischerer Aussagen bzw. Schlussfolgerungen können darauf basierend 
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von einen post-experimentellen Standpunkt, d.h. auf Basis des tatsächlich 
für d vorliegenden Werts, erfolgen. 


Beispielsweise könnte eine Bereichsschätzung für eine kontinuierliche, ein- 
dimensionale Größe des Interesses z durch Angabe eines Intervalls erfolgen, 
welches mindestens (1—y)- 100 Prozent der A-Posteriori-Wahrscheinlichkeit 
bezüglich des „wahren“ Werts von z enthält. Um dieses Intervall möglichst 
aussagekräftig zu wählen, kann dabei z.B. zusätzlich gefordert werden, dass 
die A-Posteriori-Verteilung von z innerhalb dieses Intervalls einen gewissen, 
geeignet festzulegenden Minimalwert ö nicht unterschreitet. In diesem Fall 
wird das resultierende Intervall dann als HPD (Highest Posterior Density) In- 
tervall zum Glaubwürdigkeitsgrad y bezeichnet. Vgl. hierzu [Rüg99]. 


Aufgrund der weitreichenden Interpretation von Wahrscheinlichkeit als 
Degree-of-Belief ist die Auffassung eines Fusionsproblems als Inferenz- 
problem im Sinne der Bayes’schen Inferenz nicht nur auf diejenigen Fälle 
beschränkt, in denen die für den Rückschluss von d auf z zu modellierende 
Unsicherheit im Sinne der frequentistischen Interpretation von Wahrschein- 
lichkeit auffassbar ist. Während eine Interpretation im frequentistischen Sin- 
ne zumindest bei solchen Low Level Fusionsaufgaben (vgl. Abschnitt 2.4.3.1), 
bei denen physikalische Eigenschaften von Objekten der realen Welt mittels 
Sensoren, welche bestimmte physikalische Prinzipien umsetzen, erfasst wer- 
den, oft noch sinnvoll möglich sein mag, ist dies insbesondere bei Aufgaben 
im Bereich der High Level Fusion in der Regel nicht möglich. Vgl. hierzu auch 
[Tot08]. 


Prominente Beispiele in der Fachliteratur wie Bayes’sche Tracking Verfah- 
ren (vgl. z.B. [Koc14]) oder der in der STANAG! 4162 [NAT09] standardisier- 
te IDCP (Identification Data Combining Process) zur Charakterisierung der 
Eigenschaften aufklärungsrelevanter Objekte auf Basis Bayes’scher Inferenz 
(vgl. z.B. [Krü08]) verdeutlichen darüber hinaus auch die gute Anwendbar- 
keit Bayes’scher Verfahren in Low Level Fusionsaufgaben. Bayes’sche Infe- 
renz kann in diesem Sinne ein durchgängiges Konzept zur Modellierung von 


* Die Abkürzung STANAG steht für (NATO) Standardization Agreement, ein NATO 
Standardisierungsübereinkommen. 
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Unsicherheiten und zu ihrer Propagierung durch verschiedene Ebenen des 
JDL Modells liefern*. Anzumerken ist dabei, dass (bei Zugrundelegung von 
objektiven Degree-of-Belief-Verteilungen) mittels der Bayes’schen Inferenz 
auch Ergebnisse abgeleitet werden können, welche aus Sicht der klassischen 
Inferenz ebenfalls sinnvoll sind (vgl. z. B. [Gh006)]). 


Wesentlich für die breite Anwendbarkeit der Bayes’schen Inferenz im Kon- 
text der Informationsfusion ist insbesondere auch die Tatsache, dass sie die 
gleichzeitige Handhabung kontinuierlicher und diskreter Größen erlaubt, die- 
se verläuft praktisch analog. Weiter lassen sich auch unterschiedlich skalier- 
te Größen unkompliziert gemeinsam handhaben. Diese wäre im Kontext der 
Informationsfusion z. B. nötig, wenn Objekte gleichzeitig lokalisiert und klas- 
sifiziert werden sollen. Während es sich bei der Position um eine intervall- 
skalierte Größe handelt, stellt der Objekttyp eine nominal-skalierte Größe dar. 


3.4.3 Likelihood-Inferenz 


Die Likelihood-Inferenz beschränkt sich wie die klassische Inferenz auf die 
Einführung der Verteilungsklasse {p(d|z)|z € Z}. Anders als in der klassi- 
schen Inferenz wird bei der Likelihood-Inferenz jedoch allein der in der kon- 
kreten Aufgabe tatsächlich vorliegende Wert von d für den Rückschluss auf z 
herangezogen. Das grundsätzliche Vorgehen dabei ist unabhängig davon, ob z 
als deterministische Konstante (wie bei der klassischen Inferenz der Fall) oder 
als Zufallsvariable im Sinne der Degree-of-Belief-Interpretation von Wahr- 
scheinlichkeit (wie bei der Bayes’schen Inferenz der Fall) aufgefasst wird, an- 
wendbar. 


Wesentlicher Ausgangspunkt der Likelihood-Inferenz ist die Feststellung, 
dass die Likelihood-Funktion I(d|z) die gesamte Information, welche von den 
Beobachtungen d über den „wahren“ Wert von z geliefert wird, enthält. Das 
sog. Likelihood-Korollar (vgl. [Rüg99]) sagt dementsprechend aus, dass der 
Schluss von d auf z allein auf der Likelihood-Funktion zu basieren hat. 


1 Diesen Sachverhalt illustriert im Kleinen bereits der IDCP. Er unterstützt nämlich letztlich die 
Schnittstelle zwischen JDL Level 1 und JDL Level 3, siehe hierzu auch [Bla14]. 
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Eine eindeutige Leitlinie, wie dies erfolgen soll, ergibt sich aus einem Postulat, 
das, der z.B. in [Hac65] und [Roy97] hierfür verwendeten Terminologie fol- 
gend, in der vorliegenden Arbeit als Law of Likelihood bezeichnet wird. Das 
Law of Likelihood lässt sich wie folgt fassen: 


Es seien Z*, z** € Z. Die (gemachten) Beobachtungen d lie- 
fern genau dann statistische Evidenz für z* vis-a-vis z** wenn 
I(d|z*) > I(d|z**) ist. Ein quantitatives Maß für die Stärke der 
statistischen Evidenz stellt die Likelihood-Ratio dar, d.h. der 
Quotient I(d|z*)/I(d|z**) gibt an, wie stark d den Wert z* relativ 
zum Wert z** stützt. 


Die auf Basis des Law of Likelihood angestellte Betrachtung hinsichtlich der 
von den Beobachtungen d gelieferten statistischen Evidenz ist stets relativ. 
Beantwortet wird also die Frage, inwieweit die gemachten Beobachtungen d 
eine Hypothese bezüglich des „wahren“ Werts von z im Vergleich zu einer 
anderen stützen — nicht die Frage, ob die gemachten Beobachtungen für oder 
gegen eine bestimmte (einzelne) Hypothese sprechen. Diese Betrachtungs- 
weise ist von daher sinnvoll, da ein niedriger Wert von p(d|z) für ein be- 
stimmtes z* € Z nicht bedeutet, dass die gemachten Bobachtungen d gegen 
Z* sprechen. Für festes d als Funktion von z betrachtet stellt p(d|z) i. A. keine 
Wahrscheinlichkeitsverteilung dar. Der Wert von p(d|z) kann als Konsequenz 
recht gering für alle z € Z ausfallen und d kann in diesem Fall (relativ zu allen 
anderen möglichen Werten aus Z) sogar sehr starke statistische Evidenz für 
einen Wert z*, für den p(d|z) absolut betrachtet recht niedrig ist, liefern. Vgl. 
auch [Bar04] und [Roy97] für vertiefte Diskussionen dieses Sachverhalts. Wei- 
ter sei ergänzend auf die Referenz [Edw92] verwiesen, in der vor allem auch 
die Sinnhaftigkeit der Likelihood-Ratio für den kontinuierlichen Fall (sowohl 
im Hinblick auf d als auch auf z) dargelegt wird. 


Um einen besseren Überblick über die von d gelieferte statistische Evidenz 
zu erhalten, bietet sich oftmals die Betrachtung der sog. standardisierten 
Likelihood-Funktion 1,,(d|z) an (vgl. z.B. [Blu02] oder [Roy97]). Diese resul- 
tiert, indem man die Likelihood-Funktion I(d|z) auf einen Maximalwert von 
Eins skaliert. Die standardisierte Likelihood-Funktion |,,(d|z) gibt für jedes 
z € Z die statistische Evidenz, welche die Beobachtungen d für z relativ 
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zum Maximum-Likelihood-Schätzwert, dem im Vergleich zu allen anderen 
möglichen Werten aus Z am besten gestützten Wert, liefern, an. Um die Dar- 
stellung nicht unnötig zu verkomplizieren, wird in der vorliegenden Arbeit 
jeweils angenommen, dass die betrachteten Likelihood-Funktionen stets ein 
entsprechendes globales Maximum besitzen, auch wenn diese Voraussetzung 
tatsächlich, wie z.B. in [Rüg99] thematisiert wird, nicht immer erfüllt sein 


muss. 


Gemäß den Leitlinien der Likelihood-Inferenz sollte beispielsweise eine Be- 
reichsschätzung für eine kontinuierliche, eindimensionale Größe des Interes- 
ses Z diejenigen Werte aus Z enthalten, welche gemäß den gemachten Beob- 
achtungen d besonders schlüssig sind, in dem Sinne, dass die Beobachtungen 
für sie ein besonders hohes Maß an statistischer Evidenz (im Vergleich zu den 
anderen Werten aus Z) liefern. Diese Aufgabe lässt sich oftmals am Besten 
umsetzen, indem man eine untere Schranke € € (0,1) an die standardisierte 
Likelihood-Funktion ansetzt’. 


Wie in [Roy97] sehr anschaulich erläutert wird, besteht das Ziel des entspre- 
chenden, bei der Likelihood-Inferenz angestellten Schlusses nicht darin, den 
bezüglich des „wahren“ Werts von z insgesamt vorliegenden Informations- 
stand zu ermitteln. Wie weiter erläutert wird, wäre diese Zielsetzung, den 
vollständigen Informationsstand zu ermitteln, durch die Berechnung der A- 
Posteriori-Verteilung p(z|d), wie sie im Kontext der Bayes’schen Inferenz 
eingeführt wurde, zu adressieren. Das Ziel der Likelihood-Inferenz ist dem- 
entgegen die objektive Evaluation allein der Beobachtungen d in Bezug auf 
die Frage nach dem „wahren“ Wert von z. Vorwissen, welches zusätzlich zur 
Verfügung stehen mag, wird dabei bewusst ausgeklammert, es darf in Bezug 
auf diese spezifische Frage ja auch letztlich überhaupt nicht berücksichtigt 
werden. 


Dies erklärt sehr gut die Tatsache, dass die Anwendung der Likelihood- 
Inferenz heute z.B. im Kontext der statistischen Auswertung klinischer Stu- 


* Dieser Sachverhalt wird in Abschnitt 6.2 der vorliegenden Arbeit noch vertieft betrachtet und 
genutzt werden, so dass im Rahmen des hier angeführten Beispiels nicht weiter darauf einge- 
gangen wird. 
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dien (vgl. [Blu02]) und der forensischen Statistik (vgl. [Ait04] und [Luc05]) 
propagiert wird. Beispielsweise hat ein forensischer Experte, der bestimmte 
Daten in Bezug auf eine mögliche Straftat auswerten soll, letztlich die Aufga- 
be, ein allein auf den ihm vorliegenden Daten beruhendes Ergebnis zu liefern. 
Die Kombination dieses Ergebnisses mit den Ergebnissen der Auswertung 
weiterer Daten und eine Aussage hinsichtlich des Grad des Dafürhaltens 
dafür, ob eine Straftat vorliegt bzw. wer der Verursacher ist, sollte zwar mög- 
lich sein, hat aber nicht durch den forensischen Experten, sondern durch die 
ermittelnden Polizeibeamten bzw. später final durch ein Gericht zu erfolgen. 


Gemäß dem in Abschnitt 2.1 ausführlich erläuterten Grundprinzip der Infor- 
mationsfusion macht es bei der Informationsfusion nun aber i. A. gerade Sinn, 
Vorwissen, welches zusätzlich zu den von den Informationsquellen geliefer- 
ten Beiträgen verfügbar ist, gezielt zu berücksichtigen, um so ein möglichst 
hochwertiges Fusionsergebnis zu erzielen. In anderen Worten hat die Infor- 
mationsfusion also i. A. gerade das übergeordnete Ziel, den vollständigen In- 
formationsstand im Hinblick auf z zu erschließen - so wie es die Bayes’sche 
Inferenz zu leisten vermag. Die Zugrundelegung der Likelihood-Inferenz als 
allgemeingültiges Inferenzkonzept zur Adressierung von Aufgabenstellungen 
der Informationsfusion ist in diesem Sinne also als nicht sinnvoll zu erachten. 


Wie im weiteren Verlauf der vorliegenden Arbeit erkennbar werden wird, eig- 
nen sich Prinzipien aus dem Bereich der Likelihood-Inferenz jedoch sehr gut, 
um bestimmte spezielle Betrachtungen im Kontext der Informationsfusion, 
insbesondere auch im Hinblick auf die lokale Bayes’sche Fusion, wesentlich 
zu unterstützen. Voraussetzung dafür, dass dieses Vorgehen möglich ist, ist, 
dass sich die der Likelihood-Inferenz und der Bayes’schen Inferenz zugrunde- 
liegenden Prinzipien grundsätzlich nicht widersprechen. Das dem tatsächlich 
so ist, soll im Folgenden kurz skizziert werden. 


Gemäß dem Satz von Bayes (vgl. Gleichung (3.5)) gilt für z*,z** € Z die 
folgende Beziehung: 


pid _ Kdz) | p@) 


Posterior-Odds Likelihood-Ratio Prior-Odds 


(3.8) 
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Ist Z diskret, so geben die sog. Prior-Odds in Gleichung (3.8) an, um wie 
viel wahrscheinlicher (oder unwahrscheinlicher) die mit z* korrespondieren- 
de Hypothese bezüglich des „wahren“ Werts von z gegenüber der mit z** kor- 
respondierenden Hypothese ist, wenn man allein das vorhandene Vorwissen 
berücksichtigt. Nachdem der Informationsstand in Bezug auf den „wahren“ 
Wert von z durch Einbeziehung der von d gelieferten Information aktualisiert 
wurde, stellen die sog. Posterior-Odds die Revision dieser quantitativen (rela- 
tiven) Aussage dar. Wie aus Gleichung (3.8) erkennbar ist, stellt der Mecha- 
nismus, durch welchen die Prior-Odds in die Posterior-Odds überführt wer- 
den, eine Multiplikation mit der Likelihood-Ratio dar. Die Likelihood-Ratio 
quantifiziert also den Faktor, um den diese Revision erfolgen sollte, und stellt 
in diesem Sinne damit auch aus Sicht der Bayes’schen Theorie ein adäquates 
(relatives) Maß für die von den Beobachtungen gelieferte statistische Evidenz 
im Hinblick auf den „wahren“ Wert von z dar. Wie in [Edw92] im Kontext der 
Herleitung des Satzes von Bayes für den Fall, dass es sich bei z um eine konti- 
nuierliche Größe handelt, dargestellt, lässt sich diese Überlegung letztlich so 
auch auf den kontinuierlichen Fall übertragen. Die beiden bezüglich des „wah- 
ren“ Werts von Z betrachteten Hypothesen korrespondieren gemäß [Edw92] 
dann mit infinitesimal kleinen Bereichen aus Z der Form z* < z < z* + dz* 
und z** < z < z** + dz**, wobei sich die infinitesimalen Elemente dz* und 
dz** aus Gleichung (3.8) herauskürzen. 


In diesem Sinne könnte man die zuvor dargestellten Prinzipien aus dem 
Bereich der Likelihood-Inferenz als auch inhärenten Bestandteil der der 
Bayes’schen Inferenz zugrundeliegenden Bayes’schen Theorie betrachten. 
Voraussetzung ist dabei jedoch, dass ein Standpunkt eingenommen wird, 
demzufolge Wahrscheinlichkeitsaussagen tatsächlich im Sinne der Degree- 
of-Belief-Interpretation von Wahrscheinlichkeit aufgefasst werden können. 
Hierzu ist anzumerken, dass prominente Vertreter der Likelihood-Inferenz 
diesen Standpunkt jedoch mindestens in dem Fall, in dem keinerlei Vor- 
wissen bezüglich z vorliegt, für nicht sinnvoll erachten (vgl. hierzu auch 
Abschnitt 3.3.2.2). 


Abschließend sei noch angemerkt, dass sich manche Autoren wie z.B. 
[Edw92] dafür aussprechen, den Grad, zu dem die Beobachtungen d be- 
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stimmte Hypothesen (relativ zueinander betrachtet) stützen, auf einer 
logarithmischen Skala anzugeben. In diesem Fall lässt sich die in in Glei- 
chung (3.8) dargestellte Beziehung auch wie folgt sehr anschaulich als 
Differenz interpretieren: 


Kalz*) ) ( p(z*|d) ) ( p(z*) ) 
lo ae = log | ——— | — lo i 3.9 
Elaz)  elperia)) Ee on 
oO Sess ON 
Unterstiitzung durch d Posterior-Log-Odds Prior-Log-Odds 


3.5 Erfüllung der Basisanforderungen 


Gemäß Abschnitt 2.3 muss eine sinnvolle Methodik zur Fusion heteroge- 
ner Informationsquellen die Fahigkeiten zur Transformation, Fusion und 
Fokussierung besitzen. Im vorliegenden Abschnitt werden Mechanismen 
aufgezeigt, anhand deren die Bayes’sche Fusionsmethodik diesen drei Basis- 
anforderungen nachzukommen vermag. Diese Mechanismen griinden sich 
auf fundierte Konzepte und Verfahren aus der Wahrscheinlichkeitstheorie, 
der Informationstheorie und der statistischen Entscheidungstheorie. Der 
vorliegende Abschnitt stellt eine hinsichtlich der erforderlichen Grundlagen 
deutlich erweiterte Darstellung der diesbezüglich in [Bey06b] erstmalig 
veröffentlichten Ergebnisse im Hinblick auf die Frage nach der Adäquat- 
heit der Bayes’schen Fusionsmethodik bezüglich der vorab formulierten 
Basisanforderungen dar. 


3.5.1 Fähigkeit zur Transformation 


Wie in Abschnitt 3.4.2 bereits dargelegt wird bei der Bayes’schen Fusion der 
Informationsstand in Bezug auf alle in die Fusionsaufgabe involvierten Grö- 
ßen mittels Wahrscheinlichkeitsverteilungen im Sinne der Degree-of-Belief- 
Interpretation von Wahrscheinlichkeit repräsentiert. Üblicherweise enthält 
die Menge der Wahrscheinlichkeitsverteilungen, welche mit der in Bezug auf 
eine involvierte Größe vorliegenden Information konsistent sind, mehr als ein 
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Element. Als Konsequenz sind Mechanismen notwendig, um aus dieser Men- 
ge bestmöglich eine eindeutige Wahrscheinlichkeitsverteilung auszuwählen. 
In der Regel strebt man dabei an, dass die gewählte Wahrscheinlichkeitsver- 
teilung objektiv ist, d.h. dass sie einerseits konsistent mit der vorliegenden 
Information ist und dass sie andererseits keine zusätzliche Information (in 
Form von Artefakten) in das Fusionsergebnis einbringt. 


Die Bayes’sche Theorie stellt unterschiedliche, an spezifische Anforderungen 
angepasste Mechanismen zu Verfügung, um einen vorliegenden Informati- 
onsstand dementsprechend in eine objektive probabilistische Repräsentati- 
on im Sinne der Degree-of-Belief-Interpretation von Wahrscheinlichkeit zu 
überführen. Einen Überblick hierzu liefern z. B. die Referenzen [Ber85, Ber04, 
Kas96, Rob01]. Einen konzeptionell einfachen und gleichzeitig theoretisch gut 
begründeten Mechanismus zur Transformation, welcher oft erfolgreich an- 
wendbar ist, liefert das erstmals in [Jay68] veröffentlichte Prinzip der Maxima- 
len Entropie. Seine Anwendung wird heute u.a. im Kontext der Messtechnik 
(siehe z.B. [Bey99], [Som09] und [Wei99a]) als zielführend angesehen. Dar- 
über hinaus hat es auch in anderen Anwendungsbereichen (siehe z. B. [Cre04], 
[De 18], [Har14], [Kap89] und [Moh90]) seine Praxistauglichkeit bewiesen. 


Das Prinzip der Maximalen Entropie lässt sich auf grundlegende Konzepte aus 
der Informationstheorie [Sha48] zurückführen. Im Folgenden wird es zuerst 
für den Fall diskreter Wahrscheinlichkeitsverteilungen eingeführt, anschlie- 
Bend wird es dann auf den allgemeinen Fall erweitert. 


Definition 3.4. Es sei p(z) die Wahrscheinlichkeitsverteilung einer diskreten 
Zufallsgröße z, welche Werte aus der Menge Z annehmen kann. Die (Shan- 
non’sche) Entropie H| p(z)] von p(z) ist gegeben durch 


H[p(z)] := —Epczy[log p(z)] = — >) p(z)log p(z) . (3.10) 


ZEZ 
Die (Shannon’sche) Entropie stellt ein quantitatives Maß für die durch die 


Wahrscheinlichkeitsverteilung p(z) verkörperte Unsicherheit, oder in ande- 
ren Worten, ein inverses Maß für den Informationsgehalt von p(z) dar. Die- 
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ser Sachverhalt lässt sich direkt aus Axiomen für ein entsprechendes Unsi- 
cherheitsmaß ableiten, siehe hierzu z.B. [Gui77] oder [Kli06]. Man kann ihn 
sich wie folgt verdeutlichen: Die Größe — log p(z), deren Erwartungswert 
Epcz)[— log p(z)] in Gleichung (3.10) unter Zugrundelegung der Verteilungs- 
annahme p(z) gebildet wird, lässt sich auffassen als Maß für den Informati- 
onsgewinn, den es zu Folge hat, wenn bekannt wird, dass der entsprechende 
Wert z der Zufallsgröße der „wahre“ Wert ist. Sie spiegelt dabei u. a. die Tatsa- 
che wieder, dass der Informationsgewinn beim Bekanntwerden eines Ereig- 
nisses umso höher bewertet werden sollte, je unwahrscheinlicher das Ereignis 
ist. Die (Shannon’sche) Entropie H| p(z)] lässt sich in diesem Sinne auffassen 
als der mittlere Informationsgewinn, der unter Zugrundelegung der Vertei- 
lungsannahme p(z) beim Bekanntwerden des „wahren“ Werts von z auftritt. 
Je geringer der Wert von H[p(z)] ausfällt, umso geringer ist die verbleibende 
Unsicherheit bzw. (in anderen Worten) umso weniger Information fehlt noch 
im Hinblick auf die vollständige Kenntnis des „wahren“ Werts von Z. 


Gemäß dem Prinzip der Maximalen Entropie ist aus der Menge aller Wahr- 
scheinlichkeitsverteilungen auf Z, welche konsistent mit der bezüglich z vor- 
liegenden Information I sind, diejenige Wahrscheinlichkeitsverteilung aus- 
zuwählen, welche maximale (Shannon’sche) Entropie aufweist. Dadurch wird 
die Unsicherheit bezüglich des „wahren“ Werts von z also nur in dem Umfang 
verringert, in dem dies notwendig ist, um die Konsistenz mit I sicherzustel- 
len. Die Maximum-Entropie-Verteilung pyr(Z) ergibt sich damit als Lösung 
des folgenden Optimierungsproblems: 


Pux(zZ) = arg max H[p(z)] . (3.11) 
p(z)EPz 


Dabei bezeichnet $, die Menge aller Wahrscheinlichkeitsverteilungen auf Z, 
welche konsistent mit der vorliegenden Information I sind. 


Als Basis fiir die Erweiterung des Prinzips der Maximalen Entropie auf den 
Fall kontinuierlicher Zufallsgrößen dient in der Fachliteratur oft die direkte, in 
nachfolgender Definition 3.5 gefasste Erweiterung des Entropie-Begriffs. Die 
Maximum-Entropie-Verteilung Pr (Z) ergibt sich dann analog zum diskreten 
Fall als Lösung des in Gleichung (3.11) formulierten Optimierungsproblems. 
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Definition 3.5. Es sei p(z) die Wahrscheinlichkeitsverteilung einer kontinu- 
ierlichen Zufallsgröße z, welche Werte aus der Menge Z annehmen kann. Die 
(Boltzmann) Entropie H| p(z)] von p(z) ist gegeben durch 


H[p(z)] := —EpcayLlog p(2)] = — f p(z)log p(z) dz . (3.12) 
VA 


Die (Boltzmann) Entropie lässt sich grundsätzlich analytisch sowie (wie auch 
im diskreten Fall) auf Basis entsprechender Axiome (hier dann speziell für 
den kontinuierlichen Fall) betrachten (vgl. z. B. [Gui77]). Ihre Verwendung als 
quantitatives Maß für die durch die Wahrscheinlichkeitsverteilung p(z) ver- 
körperte Unsicherheit ist dennoch zumindest manchmal mit gewissen kon- 
zeptionellen Schwierigkeiten verbunden. 


Diese Schwierigkeiten resultieren letztlich daraus, dass - wenn auch nicht di- 
rekt ersichtlich - in Definition 3.4 und Definition 3.5 letztlich in folgendem 
Sinne unterschiedliche mathematische Größen eingeführt wurden: Zwar re- 
sultiert die rechte Seite von Gleichung (3.12) auf den ersten Blick direkt aus der 
rechten Seite von Gleichung (3.10), indem die Summation durch eine Integra- 
tion ersetzt wird. Allerdings lässt sich zeigen, dass die rechte Seite von Glei- 
chung (3.12) gerade nicht als Grenzwert der rechten Seite von Gleichung (3.10) 
bei einer immer feiner werdenden Diskretisierung des Wertebereichs Z von 
z resultiert (siehe hierzu z.B. [Bey99], [Gui77] oder [Kli06]). Anders als die 
(Shannon’sche) Entropie diskreter Zufallsgrößen kann die (Boltzmann) En- 
tropie kontinuierlicher Zufallsgrößen auch negative Werte annehmen und ist 
nicht invariant unter Koordinatentransformationen (siehe hierzu insbesonde- 
re auch [Jay68]). 


Eine vollständig einheitliche Herleitung eines quantitativen Maßes für die 
durch eine Wahrscheinlichkeitsverteilung p(z) verkörperte Unsicherheit 
für den diskreten und den kontinuierlichen Fall, welches keine derartigen 
Schwierigkeiten mit sich bringt, lässt sich jedoch bewerkstelligen (vgl. hierzu 
z.B. [Gui77], [Kli06] sowie insbesondere [Hob73]) . Hierfür setzt man statt ei- 
nes absoluten Unsicherheitsmaßes, wie es die Entropie darstellt, ein relatives 
Unsicherheitsmaß an. Konkret herangezogen wird die in [Kul59] festgelegte 
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Kullback-Leibler-Divergenz, welche auch als relative Entropie bezeichnet 
wird. Diese ist wie folgt definiert: 


Definition 3.6. Es seien p(z) und q(z) Wahrscheinlichkeitsverteilungen auf 
Z. Die Kullback-Leibler-Divergenz KD[p(z),q(z)] von p(z) relativ zu q(z) ist 
gegeben durch 


pE) z 
KD[p(z),g(z)] := E fio rD) | z)log —— dz. 3.13 
Lp(z),g(z)] ple) |108 oes P. TE (3.13) 
In Fällen, in denen z anteilig oder vollständig aus diskreten Komponenten be- 
steht, ist die Integration in Gleichung (3.13) dementsprechend (anteilig oder voll- 
ständig) durch eine Summation zu ersetzen. 


Die Kullback-Leibler-Divergenz KD[p(z),q(z)] lässt sich in folgendem Sin- 
ne als relatives Unsicherheitsmaß auffassen (vgl. [Kul59] zur Herleitung der 
mathematischen Beziehungen’): Es bezeichne A die Hypothese, dass z die 
Verteilung p(z) besitzt. Weiter bezeichne B die Hypothese, dass z die Ver- 
teilung q(z) besitzt. Durch Ansetzen der Odds-Form des Satzes von Bayes 
(ähnlich wie in Gleichung (3.8)) lässt sich zeigen, dass p(z)/q(z) gerade die 
durch das Bekanntwerden eines Werts von zZ gelieferte statistische Evidenz 
(vgl. Abschnitt 3.4.3) für die Hypothese A relativ zur Hypothese B darstellt, 
wenn man davon ausgeht, dass Hypothese A wahr ist, z also die Verteilung 
p(z) besitzt. Die Kullback-Leibler-Divergenz KD[p(z),q(z)] gibt somit also 
die mittlere statistische Evidenz (im Sinne einer Erwartungswertbildung ge- 
maf der tatsächlich vorliegenden Verteilung p(z)) für die Hypothese A rela- 
tiv zur Hypothese B an, wenn man diese auf einer logarithmischen Skala (vgl. 
hierzu auch Gleichung (3.9)) misst. 


Die Kullback-Leibler-Divergenz stellt die Basis des sog. Prinzips der Minima- 
len Information (siehe [Par06, Van81, Wil80]) dar, welches sich als Erweite- 
rung des Prinzips der Maximalen Entropie auffassen lässt (vgl. auch [Hob73]). 


* Die Terminologie in [Kul59] ist anders als die nachfolgend verwendetete, insbesondere wird 
dort der Begriff der statistischen Evidenz nicht verwendet. 
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Zur Erläuterung des Prinzips der Minimalen Information sei Folgendes ange- 
nommen: Es stelle q(z) eine objektive Wahrscheinlichkeitsverteilung für z 
im Sinne der Degree-of-Belief-Interpretation von Wahrscheinlichkeit dar. Es 
werde zusätzliche Information I in Bezug auf z verfügbar und die Aufgabe sei 
nun, q(z) durch eine neue objektive Wahrscheinlichkeitsverteilung zu erset- 
zen, welche zusätzlich auch I berücksichtigt. Basierend auf der zuvor erläuter- 
ten Interpretation der Kullback-Leibler-Divergenz als relatives Unsicherheits- 
maß besagt das Prinzip der Minimalen Information, dass die neue Verteilung 
Pwmı(Z) so aus der Menge aller Wahrscheinlichkeitsverteilungen auf Z, welche 
konsistent mit I sind, zu wählen ist, dass die Kullback-Leibler-Divergenz von 
Pır(z) relativ zu q(z) minimal wird. Die Verteilung pyq(z) ergibt sich somit 
als Lösung des folgenden Minimierungsproblems: 


Pui(z) = arg min KD[p(z),q(z)] , (3.14) 
p(zJ)EPBz 


wobei $, die Menge aller Wahrscheinlichkeitsverteilungen auf Z bezeichnet, 
welche konsistent mit der neu hinzugekommenen Information I sind. 


Das Prinzip der Minimalen Information lässt sich vereinfacht‘ wie folgt als 
Verallgemeinerung des Prinzips der Maximalen Entropie veranschaulichen: 
Es gilt 


KD[p(2),q@2)] = - f p(z) log q(z) dz- (- f p(@) log a(z) az) . (3.15) 


Z Z 
H[p(z)] 


Ist vor dem Bekanntwerden von I keinerlei Information bezüglich z verfügbar, 
so sollte q(z) keinen Wert z € Z favorisieren. In vielen praktischen Aufga- 
benstellungen lässt sich dies umsetzen, indem man annimmt, dass q(z) « 1 
gilt, q(z) also einen konstanten Wert c über ganz Z annimmt. Der erste Term 


n 


Eine detaillierte mathematische Betrachtung des Zusammenhangs zwischen Entropie und 
Kullback-Leibler-Divergenz findet man z.B. in [Hob73]. Auf eine derartige, komplexere Dar- 
stellung wird in der vorliegenden Arbeit bewusst verzichtet, da es an dieser Stelle vor allem 
darum geht, die grundsätzlichen Prinzipien zu verdeutlichen. 
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auf der rechten Seite von Gleichung (3.15) entspricht dann gerade — log c. Das 
bei Anwendung des Prinzips der Minimalen Information zu lösende Minimie- 
rungsproblem gemäß Gleichung (3.14) und das bei Anwendung des Prinzips 
der Maximalen Entropie zu lösende Maximierungsproblem gemäß Gleichung 
(3.11) sind dann äquivalent. 


Eine Festlegung der Form q(z) œ 1 für eine nichtinformative A-Priori- 
Verteilung ist innerhalb der Bayes’schen Theorie oftmals auch dann zulässig 
und vielversprechend, wenn Z so beschaffen ist, dass keine dieser Festlegung 
entsprechende Gleichverteilung auf Z existiert. In diesem Fall stellt q(z) dann 
eine nicht normierbare sog. uneigentliche Wahrscheinlichkeitsverteilung* 
dar. Der Einsatz von uneigentlichen A-Priori-Verteilungen ist innerhalb der 
Bayes’schen Theorie i. A. problemlos möglich, wenn bei der Bayes’schen In- 
ferenz als A-Posteriori-Verteilung wieder eine wohldefinierte (normierbare) 
Wahrscheinlichkeitsverteilung resultiert. Vgl. zu dieser Thematik z.B. auch 
[Car09], [Ntz09] oder [Rüg99]. 


Das Prinzip der Minimalen Information liefert in diesem Sinne eine einheitli- 
che theoretische Rechtfertigung für das Prinzip der Maximalen Entropie so- 
wohl für den diskreten als auch für den kontinuierlichen Fall. Dementspre- 
chend wird im weiteren Verlauf der vorliegenden Arbeit nicht mehr zwischen 
diesen beiden Fällen unterschieden. 


In vielen praktisch relevanten Fällen ist eine analytische Bestimmung der 
Maximum-Entropie-Verteilung pur(Z) möglich, vgl. hierzu auch [Kap89]. Ein 
wichtiger Fall ist der, dass sich die bezüglich z vorliegende Information I an- 
hand von Erwartungswerten der Form 


Epo lfl g, jeth..Jt, (3.16) 


mit Funktionen fi (Z), ... ,fr(z) ausdrücken lässt, J € N. Wie u.a. in [Cov91] 
und [Jay57] aufgezeigt, liefert ein Lagrange-Ansatz zur Lösung des korrespon- 


* Uneigentliche A-Priori-Verteilungen werden in englischsprachigen Veröffentlichungen als im- 
proper priors bezeichnet. 
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dierenden Optimierungsproblems (gemäß Gleichung (3.11)) hier die geschlos- 
sene Lösung 


J 
Pue(Z) = Ao exp » ago > (3.17) 
j=1 


wobei die Konstanten Ag, ... ,Ay anhand der Nebenbedingungen gemäß Glei- 
chung (3.16) und der Nebenbedingung, dass Pur (Zz) eine Wahrscheinlichkeits- 
verteilung darstellen muss, zu bestimmen sind. 


Beispielsweise lassen sich durch die Festlegungen 


fi@) =z, (3.18) 
f@)=(z-Epaylzly , jE {2J}, (3.19) 


die ersten J zentralen Momente einer reellwertigen Zufallsvariablen z als Ne- 
benbedingungen in der durch Gleichung (3.16) vorgegebenen Form formulie- 
ren. Im Fall j = 2 entspricht dies gerade der Vorgabe von Erwartungswert u 
und Varianz o°. In diesem Fall ergibt sich als Maximum-Entropie-Verteilung 
die Normalverteilung N(A,0?). 


Weiter entspricht beispielsweise eine Festlegung der Form 


1, falls z < 9; 


, JE{1,...,J}, 3.20 
0, falls z > 6; jei 3 ce) 


G2 = 1(-0,6;(2) = | 


der Vorgabe bestimmter Quantile der gesuchten Wahrscheinlichkeitsvertei- 
lung, denn es gilt dann 


6; 
p(z)dz. (3.21) 


oo 


Ep) Lf] = 


Die Erhebung derartiger Quantile könnte sich z.B. anbieten, wenn die Infor- 
mation bezüglich z bei menschlichen Experten abgefragt wird. 
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Mathematische Mechanismen zur Transformation von Information in eine 
objektive probabilistische Repräsentation im Sinne der Degree-of-Belief- 
Interpretation von Wahrscheinlichkeit wie das Prinzip der Maximalen 
Entropie werden innerhalb der Bayes’schen Theorie üblicherweise zur Fest- 
legung der A-Priori-Verteilung p(z) eingesetzt. Für eine Festlegung der 
Likelihood-Funktion I(d|z) ist dagegen oftmals das Wissen über den Prozess, 
durch den d in Abhängigkeit von z generiert wurde, direkt nutzbar, siehe 
hierzu z.B. [Edw63] oder [Wei99a]. Konkret können hierzu in der Praxis 
oftmals physikalische Modelle oder empirische Erhebungen genutzt werden. 
Ist eine derartige Festlegung der Likelihood-Funktion I(d|z) nicht möglich, so 
können jedoch auch hierzu entsprechende mathematische Mechanismen zur 
Transformation eingesetzt werden, siehe hierzu z. B. [Bey99] oder [Iuc06]. 


3.5.2 Fähigkeit zur Fusion 


Wie bereits in Abschnitt 3.4.2 dargelegt wurde, stellt beim Zugrundelegen 
der Degree-of-Belief-Interpretation von Wahrscheinlichkeit die A-Posteriori- 
Verteilung p(z|d) die vollständige und vom mathematischen Standpunkt aus 
einzig stimmige Verkörperung des Informationsstands bezüglich z dar. Sie 
berücksichtigt gerade das Vorwissen und die von den Informationsquellen in 
Form von d gelieferte Information. 


Bei der Bayes’schen Fusion entspricht in diesem Sinne dann also die A- 
Posteriori-Verteilung p(z|d) der vollständigen Verkörperung des Fusions- 
resultats und der in Abschnitt 2.3 geforderte Mechanismus, mittels dem die 
transformierten Fusionsanteile kombiniert werden, ist gerade durch den Satz 
von Bayes (vgl. Gleichung (3.5) bzw. Gleichung (3.6) sowie Gleichung (3.7)) 
vorgegeben: 


I(d|z)p(z) 


PED = TalzypG)dz 


x I(d|z)p(z) . (3.22) 


Es lasst sich zeigen, dass diese Kombination nicht nur aus Sicht der Wahr- 
scheinlichkeitstheorie, sondern auch aus informationstheoretischer Sicht op- 
timal ist. Dieser Sachverhalt wird in Abschnitt 6.3 noch genauer betrachtet 
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und genutzt werden. An dieser Stelle sei weiter auch noch einmal hervorge- 
hoben, dass die Bayes’sche Fusionsmethodik in Form der A-Priori-Verteilung 
p(z) eine explizite Eingangsgröße liefert, mittels der das hinsichtlich der Grö- 
Ben des Interesses vorhandene Vorwissen adäquat in den Fusionsvorgang ein- 
gespeist werden kann. 


Gemäß der Kettenregel aus der Wahrscheinlichkeitstheorie gilt 


p(dlz) = p(dılz)p(a2l2,dı).... p(ds|z,dı, ... .ds-ı) , (3.23) 


d.h. die von den Informationsquellen gelieferten Beiträge d,, s € {1,... ,S}, 
können i. A. nicht individuell in die Bayes’sche Fusion eingehen. Gerade beim 
Vorliegen heterogener Informationsquellen ist dies aber dennoch oft der Fall, 
nämlich dann, wenn die Informationsbeiträge vom mathematischen Stand- 
punkt aus als stochastisch bedingt unabhängig gegeben z angesehen werden 
können. Diese Annahme lässt sich z.B. rechtfertigen, wenn die Informati- 
onsquellen Sensoren, welche auf unterschiedlichen physikalischen Prinzipi- 
en aufbauen, entsprechen und die ihnen überlagerten Störungen unabhängig 
sind (vgl. [Bey06b] und [Kle04]). 


Beim Vorliegen der stochastisch bedingten Unabhängigkeit vereinfacht sich 
Gleichung (3.23) zu 


S 
p(diz)=]] plz). (3.24) 


s=1 


d.h. bei festgehaltenem Wert von z (ihrer Ursache) enthalten die Informa- 
tionsbeiträge keine Information übereinander. Gemäß Gleichung (3.24) er- 
gibt sich in diesem Fall die Likelihood-Funktion I(d|z) als Produkt indivi- 
dueller Likelihood-Funktionen I(d,|z) für die einzelnen Informationsquellen, 
s E {1,..., S}, was bereits eine deutliche Vereinfachung im Hinblick auf ihre 
Bestimmung darstellt. 


Außerdem lässt sich in diesem Fall durch rekursive Anwendung des durch 
den Satz von Bayes vorgegebenen Fusionsschemas (vgl. Gleichung (3.22)) un- 


84 


3.5 Erfüllung der Basisanforderungen 


kompliziert ein sequentielles Fusionsschema realisieren: 
p@zldı,... ds41) x KdsHılzdp@zldi,..,d) Ys € {1,..,S5 — 1}. (3.25) 


Die von den Informationsquellen gelieferten Beiträge tragen hier sukzessive 
zum Informationsstand bezüglich z bei. Letztlich stellt dabei die A-Posteriori- 
Verteilung eines bestimmten Fusionsschritts die A-Priori-Verteilung für den 
nächsten Schritt dar. Es sei angemerkt, dass die Reihenfolge, in der die Infor- 
mationsbeiträge in diese schrittweise Fusion eingehen, keine Rolle spielt. 


Prinzipiell lässt sich durch die Umsetzung eines derartigen sequentiellen Fu- 
sionsschemas beim Vorliegen von verschiedenen, u.a. auch nach und nach 
verfügbar werdenden Informationsquellen insbesondere auch solange Infor- 
mation ansammeln, bis der Informationsstand in Bezug auf die durch z ver- 
körperten Größen des Interesses eine ausreichend gute Entscheidungsgrund- 
lage darstellt. Es besteht also erst einmal kein Zwang, nach einer vorab fi- 
xierten Anzahl von Fusionsschritten eine „harte“ Entscheidung bezüglich des 
„wahren“ Werts von z zu treffen. 


Bayes’sche Verfahren, welche sich auf die beschriebene bedingte Unabhängig- 
keitsannahme stützen, werden in der Fachliteratur oft als naive Bayes’sche 
Verfahren bezeichnet. Sie liefern gerade bei Aufgabenstellungen der Klas- 
sifikation oft auch gute Ergebnisse, obwohl die bedingte Unabhängigkeits- 
annahme tatsächlich nicht erfüllt ist (siehe hierzu [Dom97, Ekd06, Han01, 
Ris01]). Da bei einer Klassifikation nur bestimmte Aspekte der A-Posteriori- 
Verteilung relevant sind (siehe hierzu auch Abschnitt 3.5.3), impliziert diese 
Feststellung aber nicht unbedingt, dass in diesen Fällen die beim Zugrundele- 
gen einer (nicht geltenden) bedingten Unabhängigkeitsannahme resultieren- 
de A-Posteriori-Verteilung insgesamt eine gute Näherung für die tatsächliche 
A-Posteriori-Verteilung darstellt. 


In praktischen Aufgabenstellungen der Informationsfusion müssen mögli- 
cherweise für eine realistische bzw. praktikable Modellbildung neben d und 
z (und dem Vorwissen) noch weitere Einflussgrößen explizit berücksichtigt 
werden. Die Bayes’sche Fusionsmethodik zeichnet sich in diesen Fällen 
durch einen zwanglosen Umgang mit den entsprechenden sog. Nuisance- 
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Parametern (vgl. [Ber04]) aus. Sie können z.B. als weitere Zufallsgrößen in 
die Berechnung der A-Posteriori-Verteilung miteinbezogen werden und dann 
nachgelagert mittels Mechanismen zur Fokussierung wieder herausgerech- 
net werden. Derartige Mechanismen werden im nachfolgenden Abschnitt 
genauer aufgegriffen. 


3.5.3 Fähigkeit zur Fokussierung 


Die Bayes’sche Theorie stellt unterschiedliche Mechanismen zur Verfügung, 
mittels derer sich die in Form der A-Posteriori-Verteilung p(z|d) vorliegende 
umfassende Informationsverkörperung des Fusionsresultats bei Bedarf zielge- 
richtet auf spezielle Einzelfragestellungen konzentrieren lässt. Die Fokussie- 
rung geht dabei aber natürlich (unvermeidbar) mit einem Informationsverlust 
einher, d.h. es ist wichtig, dass dabei möglichst keine Information verloren 
geht, die in Bezug auf die jeweilige Einzelfragestellung relevant ist. 


Sind im Hinblick auf eine Einzelfragestellung nur bestimmte der im Vektor 
z zusammengefassten Größen des Interesses Zy, n € {1,...,N}, relevant, so 
nehmen die übrigen Komponenten von z die Rolle von Nuisance-Parametern 
ein. Eine Reduktion der Dimension der A-Posteriori-Verteilung lässt sich in 
diesem Fall durch Marginalisierung umsetzen. 


Entsprechen z. B. in einer konkreten Aufgabenstellung (z,,Z,) der Position, Z3 
dem Typ und z4 der (als kontinuierliche Größe modellierten) Bewegungsrich- 
tung eines Objekts in einer Szene und ist in einer speziellen Einzelfragestel- 
lung nur die Position von Interesse, so lässt sich die A-Posteriori-Verteilung 
p(z\d) = p(21,22,23,Z4|d) wie folgt durch Bildung der entsprechenden Mar- 
ginalverteilung p(z,,Z2|d) auf diesen Aspekt konzentrieren: 


p(z1,22|d) = > P(Z1,22,23,Za|d) dzy . (3.26) 


23€Z3 Z4 


Einen weiteren Mechanismus zur Fokussierung stellt die Berechnung spezi- 
fischer A-Posteriori-Erwartungswerte Ep(zja) [f(z)] dar. Dabei ist f(z) eine 
für die spezielle Einzelfragestellung passend gewählte Funktion. Hängt diese 
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nicht von allen Komponenten von Z ab, so beinhaltet die Erwartungswert- 
bildung auch eine Marginalisierung. Im vorgenannten Beispiel resultiert z.B. 
aus der Festlegung f(z) = z4 gerade die erwartete Bewegungsrichtung des 
Objekts in Form des marginalen A-Posteriori-Erwartungswerts E pczjq) [24]: 


Eads | Mi S f za plezpzyzald) dz, dzy dz, (3.27) 
Zı YZ2 23623 YZ4 


zi Z4 p(z4|d) dz4 . (3.28) 


Z4 


Mit dem dargestellten Mechanismus zur Fokussierung durch Erwartungs- 
wertbildung eng verwandt sind die in Abschnitt 3.2 bereits kurz erwähnten 
Verfahren zur Schätzung des „wahren“ Werts von z. So kann z.B. mittels 
einer Punktschätzung ein Übergang von der A-Posteriori-Verteilung p(z|d) 
zu einem gemäß eines bestimmten Bewertungskriteriums optimalen Schätz- 
wert 2 für den „wahren“ Wert von z realisiert werden. Das der Auswahl des 
Schätzwerts zugrundegelegte Bewertungskriterium kann dabei z. B. in Form 
einer Verlustfunktion v(e,z) eingebracht werden. Diese setzt die möglichen 
Schätzwerte e und den (unbekannten) „wahren“ Wert von z durch die Zu- 
weisung von dem mit der Auswahl verbundenen Verlust in Beziehung. Die 
Bestimmung eines optimalen Schätzwerts erfolgt dann durch die Minimie- 
rung des A-Posteriori-Erwartungswerts Ep(zja) [U(e,z)] der Verlustfunktion. 
Dieser stellt eine Funktion von e dar und gibt unter Berücksichtigung der 
bezüglich z a posteriori vorhandenen Information den mit der Auswahl 
erwartungsgemäß verbundenen Verlust an. 


Grundsätzlich kann auch eine derartige Schätzung mit einer Marginalisierung 
gekoppelt sein. Im Beispiel oben würde beim Zugrundelegen der auf den Fahr- 
zeugtyp Z3 konzentrierten 0-1-Verlustfunktion 


1 falls e Æ z3 
v(e,Z3) = (3.29) 
0 falls e = z, 


eine Punktschätzung gerade den Maximum-A-Posteriori-Schätzwert der Mar- 
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ginalverteilung p(z3|d) liefern, denn es gilt: 


arg min Epçzja) [v(e,2Z3) | (3.30) 
eeZz 

=arg min | > v(e,23)p(Z1,22,23,Z4|d) dz, dz,dz4 (3.31) 
eEZ3 Z2 Z3EZ3 

= arg min > v(e,Z3) p(Z3|d) (3.32) 
eEZ3 -23EZ3 

= arg min (1 — p(e|d)) (3.33) 
eEZ3 

= arg max p(eld) . (3.34) 
eeZz 


Eine den vorliegenden Abschnitt in dieser Hinsicht ergänzende Darstellung 
von Verfahren zu Schätzung des „wahren“ Werts von z auf Basis unterschied- 
licher Verlustfunktionen wurde in [Bey08] mit Bezug auf den Anwendungs- 
kontext der Bildfusion veröffentlicht. 
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4.1 Herausforderung im Hinblick auf die 
Berechnungen 


Aus Kapitel 3 geht hervor, dass es sich bei der Bayes’schen Fusionsmethodik 
grundsätzlich gesehen um eine geeignete und zudem mathematisch äußerst 
fundierte Methodik zur Fusion heterogener Informationsquellen handelt, wel- 
che sich zusätzlich noch durch weitere Vorzüge auszeichnet. Hervorgehoben 
werden sollen an dieser Stelle insbesondere noch einmal ihre Durchgängig- 
keit, ihre modulare Erweiterbarkeit und die Möglichkeit, Vorwissen adäquat 
in die Fusion einzubringen. Auch entspricht die zur Repräsentation des jewei- 
ligen Informationsstands verwendete probabilistische Modellierung im Sinne 
der Degree-of-Belief-Interpretation von Wahrscheinlichkeit oftmals dem in- 
tuitiven Verständnis auch nicht speziell geschulter Personen. In der Praxis 
kann die Bayes’sche Fusionsmethodik jedoch schnell an ihre Grenzen stoßen, 
indem sie einen nicht tragbaren Aufwand verursacht. 


Auch bei einer Modellierung von A-Priori-Verteilung p(z) und Likelihood- 
Funktion I(d|z) unter Zugrundelegung nicht allzu komplizierter parametri- 
scher Verteilungsannahmen lässt sich die A-Posteriori-Verteilung p(z|d) in 
der Regel nicht analytisch bestimmen. Liegt z.B. als A-Priori-Verteilung ei- 
ne Cauchy-Verteilung C(@,A) mit bekannten (Hyper)parametern a € R und 
A > 0 vor und korrespondiert die Likelihood-Funktion mit einer Normal- 
verteilung N(z,0?) mit (unbekanntem) Erwartungswert z € R und bekann- 
ter Varianz ø? > 0, so ist eine analytische Bestimmung der A-Posteriori- 
Verteilung nicht möglich (vgl. [Ber85]). 
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Schon beim Vorliegen eines eindimensionalen Wertebereichs Z = Z, der Grö- 
ßen des Interesses kann die praktische Anwendung der Bayes’schen Fusi- 
onsmethodik also in diesem Sinne Probleme bereiten. In praktisch relevan- 
ten Aufgabenstellungen können nun aber sowohl die Dimension N € N des 
Wertebereichs Z der Größen des Interesses Z = (Z),...,Zy) als auch die in- 
dividuellen Wertebereiche Z, der einzelnen Komponenten z,,n € {1,...,N}, 
recht umfangreich sein. Die vorgenannte Problematik verschärft sich dann 
noch weiter. Gilt Z = Z, X ... X Zy und besitzt Z,, (ggf. nach Diskretisierung) 
die Kardinalität |Z,,|, so liegt der Aufwand zur numerischen („punktweisen“) 
Berechnung der A-Posteriori-Verteilung p(z|d) in 


N 
OZ) = Of [ Za) = OG) (4.1) 


n=1 


wobei 


(4.2) 


das geometrische Mittel von Z4, ... , Zņ notiert. Gemäß Gleichung (4.1) wächst 
der Aufwand zur Berechnung der A-Posteriori-Verteilung p(z|d) also i. A. ex- 
ponentiell mit der mittleren Dimension des Wertebereichs Z der Größen des 
Interesses (vgl. [San09c]). Dieser Sachverhalt ist darauf zurückzuführen, dass 
sich die Berechnung der A-Posteriori-Verteilung stets auf ganz Z bezieht, in 
diesem Sinne also globalen Charakter hat. 


Gemäß dem Bayes’schen Formalismus erfolgt die Berechnung der A- 
Posteriori-Verteilung p(z|d) auch immer komplett - unabhängig davon, 
ob in einer konkreten Aufgabenstellung tatsächlich der vollständige a pos- 
teriori verfügbare Informationsstand bezüglich des „wahren“ Werts von z 
benötigt wird oder nicht. Beispielsweise wäre wie in Abschnitt 3.5.3 skizziert 
auch ein Schatzwert 2 für den „wahren“ Wert der Größen des Interesses auf 
Basis der gesamten A-Posteriori-Verteilung p(z|d) zu bestimmen. 
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Die in der vorliegenden Arbeit nachfolgend formulierten lokalen Ansätze zur 
Bayes’schen Fusion adressieren diese Problematik grob gesagt durch die Er- 
möglichung der Einnahme eines lokalen Standpunkts. Das Ziel besteht darin, 
die eigentliche Bayes’sche Fusion möglichst nur dort lokal in Z vorzunehmen, 
wo sich auch tatsächlich Aufgabenrelevantes abspielt. Bevor dies ausgeführt 
wird, werden zuvor im nachfolgenden Abschnitt im Rahmen eines Exkurses 
in der Fachliteratur vorhandene Ansätze zur Adressierung der dargestellten 
Problematik kurz vorgestellt und diskutiert. 


4.2 Ansätze in der Fachliteratur 


Im vorliegenden Abschnitt wird ein komprimierter Überblick über die we- 
sentlichen in der Fachliteratur vorhanden Ansätze zur Adressierung der zuvor 
dargestellten Problematik im Hinblick auf die Berechnung der A-Posteriori- 
Verteilung p(z|d) bzw. von Kenngrößen derselben gegeben. Der Fokus dieser 
Aufbereitung und Diskussion des Stands der Wissenschaft und Technik liegt 
dabei auf den Ansätzen an sich, nicht auf den speziellen, i. A. recht vielfälti- 
gen Aufgabenstellungen, in denen sie eingesetzt werden. Um die Darstellung 
überschaubar zu halten, wird wo möglich auch auf die Angabe und Herleitung 
umfangreicher mathematischer Details bewusst verzichtet und statt dessen 
auf entsprechende Referenzen verwiesen. Die nachfolgenden Unterabschnit- 
te stellen eine überarbeitete und deutlich erweiterte Version der hierzu zuvor 
in [San13] veröffentlichten Anteile dar. 


4.2.1 Konjugierte Verteilungsfamilien 


Wie bereits in Abschnitt 4.1 dargestellt wurde, lässt sich auch bei einer Mo- 
dellierung der in die Bayes’sche Fusion involvierten Größen unter Zugrunde- 
legung nicht allzu komplizierter parametrischer Verteilungsannahmen die A- 
Posteriori-Verteilung p(z|d) in der Regel nicht analytisch bestimmen. Es gibt 
jedoch Ausnahmen. Dem Prinzip konjugierter Verteilungsfamilien liegt der 
Gedanke zugrunde, diese gezielt aufzugreifen. Die hierfür notwendigen, recht 
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komplexen mathematischen Grundlagen werden in der Standardliteratur zur 
Bayes’schen Theorie adressiert, siehe z. B. [Ber04], [Ber85] oder [Rob01]. 


Definition 4.1. Eine Menge von Wahrscheinlichkeitsverteilungen B, ist konju- 
giert zu einer Likelihood-Funktion I(d|z), wenn aus p(z) € z folgt, dass auch 


p(zld) € B; gilt. 


Ein triviales, allerdings nicht hilfreiches Beispiel ergibt sich (für jede beliebige 
Likelihood-Funktion I(d|z)), wenn man $B, als die Menge aller Wahrschein- 
lichkeitsverteilungen auf Z definiert. 


Rechnerisch interessant sind vor allem konjugierte Verteilungsfamilien, wel- 
che sich durch eine überschaubare Anzahl an Parametern beschreiben lassen. 
Beschränkt man sich bei der Modellierung der in die Bayes’sche Fusion in- 
volvierten Größen nämlich dann auf einen Fall, in dem das Prinzip konjugier- 
ter Verteilungsfamilien anwendbar ist, so lässt sich die Berechnung der A- 
Posteriori-Verteilung wesentlich vereinfachen. Werden Likelihood-Funktion 
I(d|z) und A-Priori-Verteilung p(z) so gewählt, dass p(z) zu einer entspre- 
chenden, zu I(d|z) konjugierten Verteilungsfamilie P, gehört, so weiß man, 
dass auch die A-Posteriori-Verteilung p(z|d) wieder in PB, enthalten ist. Las- 
sen sich weiter die in B, enthaltenen Wahrscheinlichkeitsverteilungen durch 
eine überschaubare Anzahl an Parametern beschreiben, so lässt sich die Be- 
rechnung der A-Posteriori-Verteilung im Erfolgsfall auf die analytische Be- 
rechnung dieser Parameter reduzieren. Der Aufwand, den eine numerische 
(„punktweise“) Berechnung der A-Posteriori-Verteilung bedeutet hätte, fällt 
dann also nicht an und die A-Posteriori-Verteilung lässt sich zudem auch ex- 
akt (in parametrischer Form) angeben. 


Den in der Praxis wichtigsten Fall hinsichtlich der Anwendung des Prinzips 
konjugierter Verteilungsfamilien stellt der von Normalverteilungsannahmen 
dar. Gelten beispielsweise ze R, d € R und liegt als Likelihood-Funktion 
eine Normalverteilung N(z,0?) mit (unbekanntem) Erwartungswert z und 
bekannter Varianz o? € Ryo vor, so bildet die Menge aller Normalverteilun- 
gen Na) ER, T € Ro} eine zu dieser konjugierte Verteilungsfamilie. 
Liegt als A-Priori-Verteilung die N(u,7?) Normalverteilung vor, so ergibt sich 
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o?u+rT?d ar? 


als A-Posteriori-Verteilung gerade die N( ) Normalverteilung. 


ees az un 
In diesem Fall vereinfacht sich die Berechnung der A-Posteriori-Verteilung 
also signifikant, es sind lediglich ihr Erwartungswert und ihre Varianz durch 
Verknüpfung der entsprechenden Parameter von A-Priori-Verteilung und 
Likelihood-Funktion zu berechnen. Vergleichbare Aussagen gelten auch fiir 
den multivariaten Fall. Vgl. z.B. [Car09] und [Rob01] für weitere Details zu 


diesen Sachverhalten. 


Die dem Prinzip konjugierter Verteilungsfamilien zugrundeliegende Theorie 
adressiert letztlich die Frage, wann sich die Berechnung der A-Posteriori- 
Verteilung p(z|d) wie beschrieben auf die Verknüpfung einer überschauba- 
ren Anzahl an Verteilungsparametern vereinfachen lässt. Dieser Theorie fol- 
gend ist der Einsatz des Prinzips konjugierter Verteilungsfamilien besonders 
dann vielversprechend, wenn man die Likelihood-Funktion so wählen kann, 
dass sie mit einem Element der sog. natürlichen Exponentialfamilie’ korre- 
spondiert. In diesem Fall lässt sich nämlich eine (nicht triviale) zugehörige 
konjugierte Verteilungsfamilie angeben und die Parameter der A-Posteriori- 
Verteilung, welche resultiert, wenn man ein Element dieser Verteilungsfami- 
lie als A-Priori-Verteilung wählt, lassen sich analytisch ableiten. Siehe z.B. 
[Rob01] für eine formal mathematische Darstellung dieser Sachverhalte, die 
zugehörigen mathematischen Beweise und weitere Beispiele für solche Kom- 
binationen aus Likelihood-Funktion und konjugierter Verteilungsfamilie. 


Grundsätzlich bietet das Prinzip konjugierter Verteilungsfamilien in vielen 
praktischen Aufgabenstellungen einen Weg, um den hohen Aufwand, den 
eine anderweitige Berechnung der A-Posteriori-Verteilung p(z|d) bedeu- 
teten würde, zu umgehen. Man darf dabei allerdings nicht vergessen, dass 
das Hauptargument, das für die Nutzung konjugierter Verteilungsfamilien 
spricht, oftmals rein technisch ist. 


Die Sinnhaftigkeit des dahinterliegenden Konzepts kann zwar allgemein in 
gewissen Sinne damit begründet werden, dass die Information in d bezüg- 
lich z stets als begrenzt angenommen werden sollte, ein Übergang von der 


* Diese ist nicht zu verwechseln mit der vom Namen her ähnlichen Exponentialverteilung. 


93 


4 Durchführung der Fusion 


A-Priori-Verteilung p(z) zur A-Posteriori-Verteilung p(z|d) demnach nur 
die Parameter der Verteilung von z, nicht aber ihre vollständige Struktur 
verändern sollte (vgl. [Rai61]). Allerdings stellen die bei der Festlegung 
von Likelihood-Funktion und A-Priori-Verteilung gemachten Annahmen 
oftmals dennoch Einschränkungen dar, die nicht notwendigerweise der Rea- 
lität entsprechen. So wird z.B. die A-Priori-Verteilung aus der konjugierten 
Verteilungsfamilie P, oft so ausgewählt, dass sie die tatsächliche A-Priori- 
Verteilung, welche nicht in P, enthalten ist, möglichst gut annähert. Daraus 
folgt dann allerdings nicht zwangsläufig, dass die resultierende A-Posteriori- 
Verteilung die tatsächliche A-Posteriori-Verteilung, welche bei Verwendung 
der tatsächlichen A-Priori-Verteilung resultieren würde, auch entsprechend 
gut annähert (vgl. hierzu [Ber85] und [Rob01]). Dieser Sachverhalt muss dann 
also ggf. separat validiert werden, z.B. durch eine Bayes’sche Robustheits- 
analyse (vgl. hierzu auch [Ins00]), welche selbst wiederum mathematisch 
gesehen recht komplex sein kann. 


Das Prinzip konjugierter Verteilungsfamilien lässt sich auf Mixturen erwei- 
tern (vgl. z.B. [Rob01]). Damit ist gemeint, dass eine Menge von Mixturen von 
Wahrscheinlichkeitsverteilungen, welche in einer konjugierten Verteilungs- 
familie enthalten sind, selbst wieder eine konjugierte Verteilungsfamilie bildet 
(für die entsprechende Likelihood-Funktion). Dies liefert einen Ansatzpunkt, 
um die tatsächliche A-Priori-Verteilung theoretisch gesehen beliebig genau zu 
approximieren (vgl. z.B. [Rob01]). Beispielsweise kann man gerade auch mit- 
tels Mixturen von Normalverteilungen jede beliebige Wahrscheinlichkeitsver- 
teilung beliebig gut annähern (vgl. z.B. [Rob01] und [Hub11]). Voraussetzung 
ist dabei jedoch, dass man die Anzahl der in den Mixturen enthaltenen Kom- 
ponenten nicht beschränkt. 


Da die erforderlichen Rechenoperationen, welche man bei Anwendung des 
Prinzips konjugierter Verteilungsfamilien durchführen muss, um die Parame- 
ter der A-Posteriori-Verteilung zu berechnen, von der Anzahl der in den Mix- 
turen enthaltenen Komponenten abhängen, bieten konjugierte Mixturen mit 
recht vielen Komponenten schnell keine ausreichenden rechnerischen Vortei- 
le mehr. Als Konsequenz besteht i. A. ein Trade-Off zwischen der Genauigkeit 
der Approximation (der A-Priori-Verteilung) und dem (für die Berechnung der 
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A-Posteriori-Verteilung) resultierenden Rechenaufwand, welcher sich oftmals 
nicht so einfach lösen lässt. Dies gilt gerade auch bei sukzessiver Anwendung 
des Satzes von Bayes im Rahmen einer sequentiellen Fusion, da in diesem Fall 
die Anzahl der Parameter der resultierenden A-Posteriori-Verteilungen i. A. 
deutlich mit der Anzahl der durchgeführten Fusionsschritte wächst. Ein Bei- 
spiel aus der Fachliteratur, um wiederum speziell diese Problematik zu adres- 
sieren, ist der in [Hub11] vorgestellte Ansatz einer dynamischen Reduktion 
von Mixtur-Komponenten. 


4.2.2 Deterministische Approximation 


Eine deterministische Approximation der A-Posteriori-Verteilung p(z|d) bzw. 
von Kenngrößen derselben kann mittels sog. analytischer Approximations- 
verfahren durchgeführt werden. Diese basieren auf bestimmten Annahmen 
hinsichtlich der Struktur der A-Posteriori-Verteilung. In der Regel wird kon- 
kret die Annahme gemacht, dass die A-Posteriori-Verteilung sich ausreichend 
gut durch eine Normalverteilung approximieren lässt und es wird eine ent- 
sprechende Approximation vorgenommen. 


In [Car09] wird dargestellt, dass sich eine Approximation der A-Posteriori- 
Verteilung durch eine Normalverteilung unter bestimmten Bedingungen in 
Aufgabenstellungen, in denen sehr viele, unabhängig und identisch verteilte 
Beobachtungen d, vorliegen, asymptotisch rechtfertigen lässt. Konkret lässt 
sich dann zeigen, dass die A-Posteriori-Verteilung durch eine Normalvertei- 
lung um ihren Modalwert angenähert werden kann und dass sich deren Ko- 
varianzmatrix durch Auswertung der Hesse-Matrix von log p(z|d) im Modal- 
wert berechnen lässt (vgl. [Car09]). Bei der sog. Normal-Approximation wird 
die entsprechende Approximation dann mittels einer Taylorentwicklung bis 
zur zweiten Ordnung, welche angewandt wird auf log(p(d|z)p(z)), vorge- 
nommen (vgl. [Car09]). Es sei noch angemerkt, dass sich eine Verbesserung 
der Approximationsgüte durch die sog. Laplace-Approximation, welche z.B. 
in [Ber04] und [Gam06] recht ausführlich beschrieben ist, erzielen lässt. 


Falls bei der Anwendung analytischer Approximationsverfahren die hinsicht- 
lich der Struktur der A-Posteriori-Verteilung gemachten Annahmen gut zu- 
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treffen, die A-Posteriori-Verteilung strukturell also tatsächlich recht ähnlich 
zu (in der Regel) einer Normalverteilung ist, so lassen sich mit diesen sehr 
gute Ergebnisse erzielen (vgl. z.B. [Ber04]). U.a. aufgrund der zunehmenden 
Komplexität der zur Durchführung der Approximation notwendigen Berech- 
nungen und den damit verbundenen Schwierigkeiten im Hinblick auf ihre 
praktische Durchführung ist die Anwendbarkeit analytischer Approximati- 
onsmethoden jedoch begrenzt auf Aufgabenstellungen, in denen die Dimen- 
sion von Z eher gering ist (vgl. z.B. [Ber04], [Car09] oder [Gam06)]). 


Falls keine analytische Approximation möglich ist, so kann man versuchen, 
alternativ auf numerische Approximationsverfahren, d.h. auf entsprechen- 
de Verfahren aus der numerischen Mathematik, zurückzugreifen. Deren An- 
wendbarkeit wird im Bayes’schen Kontext allerdings i. A. auch als äußerst 
begrenzt gesehen. Der Grund ist, dass sie letztlich dem sog. Fluch der Di- 
mensionalität unterliegen. Dies bedeutet, dass ihre Approximationsgüte mit 
zunehmender Dimension von Z drastisch abnimmt (vgl. [Rob01]). Versucht 
man, eine bestimmte Approximationsgüte sicherstellen, indem man die An- 
zahl der numerischen Funktionsauswertungen erhöht, so führt dies dazu, dass 
diese exponentiell mit der Anzahl der Dimensionen wächst (vgl. [Car09]). 


4.2.3 Nichtdeterministische Approximation 
4.2.3.1 Grundprinzip 


Angenommen, man kann auf Basis einer unabhängig und identisch ver- 
teilten Folge von Zufallsvariablen eine Folge von Samples z®,z®,... der 
A-Posteriori-Verteilung p(z|d) erzeugen. Gemäß dem sog. starken Gesetz der 
großen Zahlen aus der Wahrscheinlichkeitstheorie (vgl. z.B. [Geo07]) gilt 
dann fast sicher’ 


lim = X £2) = Epel fO. (4.3) 
i=1 


* Eine Aussage in der Wahrscheinlichkeitstheorie gilt fast sicher, wenn die Wahrscheinlichkeit 
dafür, dass sie zutrifft, Eins beträgt. 
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Gleichung (4.3) liefert eine Basis, um (bei entsprechender Wahl der Funk- 
tion f(z)) Kenngrößen der A-Posteriori-Verteilung p(z|d) mittels einer 
ausreichenden Anzahl m € N von Samples anzunähern (vgl. z.B. [Car09]). 
Beispielsweise lassen sich so die (theoretischen) Momente und Quantile 
der A-Posteriori-Verteilung durch die empirischen, auf Basis der Samples 
berechneten Momente und Quantile approximieren. Insbesondere kann auch 
das durch Auswertung der Samples insgesamt resultierende Histogramm 
als Approximation der gesamten A-Posteriori-Verteilung aufgefasst werden. 
Da Gleichung (4.3) fast sicher gilt, erfolgt die Approximation in der Regel 
korrekt. 


Im Hinblick auf die Verfahren, welche für die nichtdeterministische Appro- 
ximation der A-Posteriori-Verteilung p(z|d) bzw. von Kenngrößen derselben 
zur Verfügung stehen, muss zwischen nicht-iterativen und iterativen Verfah- 
ren unterschieden werden. Nicht-iterative Verfahren erzeugen eine Menge 
von m € N Samples, wobei m im Voraus geeignet festzulegen ist. Bei ite- 
rativen Verfahren wird m dagegen nicht im Voraus fixiert. 


Die Anwendbarkeit nicht-iterativer Verfahren ist gerade in Fällen, in denen 
Z eine recht umfangreiche Dimension besitzt, i. A. als äußerst limitiert an- 
zusehen. Im nachfolgenden Abschnitt wird dieser Sachverhalt exemplarisch 
anhand zweier konkreter nicht-iterativer Verfahren genauer erläutert. 


4.2.3.2 Nicht-iterative Verfahren 


Gängige Beispiele in der Standardliteratur für nicht-iterative Verfahren sind 
Importance Sampling, Weighted Resampling sowie Rejection Sampling. Im 
Folgenden wird exemplarisch genauer auf Importance Sampling und Weigh- 
ted Resampling eingegangen. Einen Einblick in das Rejection Sampling bieten 
z.B. [Car09] und [Gam06]. Ergänzend sei noch auf die Referenz [Cap07] ver- 
wiesen, in welcher die (nachfolgend nicht adressierte) sequentielle Anwen- 
dung derartiger nicht-iterativer Verfahren ausführlicher betrachtet wird. 


Beim Importance Sampling und beim Weighted Resampling wird eine Menge 
{z®,...,Z0™®} von Samples mittels einer Hilfsverteilung h(z) auf Z, welche 


97 


4 Durchführung der Fusion 


zumindest prinzipiell gesehen weitgehend beliebig gewählt werden kann, er- 
zeugt. Weiter werden Gewichte w; wie folgt festlegt: 


._ pldlz)ptz®) 
A ne) ‚ie{l,..,m}. (4.4) 
Beim Importance Sampling werden die mittels der Hilfsverteilung h(z) er- 
zeugten Samples dann direkt verwendet, um die nachfolgende Approximation 
umzusetzen (vgl. [Mar07]): 


Da SZ) a; 


Epei lf (2)] X + a 
i=1 “i 


(4.5) 


Die Tatsache, dass sich dadurch bei ausreichend großer Wahl von m in der 
Regel eine korrekte Approximation ergibt, lässt sich im Wesentlichen anhand 
der folgenden Beziehungen erkennen: 


d 
Epea SOl = Ero) Be (4.6) 
er fzIptdlz)p(z) 
sae er e 
p(d) = Ero) |. (4.8) 


Anders als beim Importance Sampling wird beim Weighted Resampling Glei- 
chung (4.5) nicht direkt anhand der mittels h(z) erzeugten Samples ausgewer- 
tet. Statt dessen erfolgt noch ein zweiter Sampling-Schritt (vgl. z.B. [Gam06)]). 
Nachdem die Gewichte œ; auf Basis der mittels h(z) erzeugten Samples z 
gemäß Gleichung (4.4) berechnet wurden, werden beim Weighted Resampling 
neue Samples aus der Wertemenge {z), ... ‚z”)} erzeugt. Dabei wird z mit 
Wahrscheinlichkeit @;/ Ei @x gewählt. Die so erzeugten Samples entspre- 
chen dann näherungsweise Samples der A-Posteriori-Verteilung p(z|d) und 
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können direkt zur näherungsweisen Approximation von E,„(zıayLF(z)] gemäß 
Gleichung (4.3) verwendet werden. 


Der Hintergrund des beim Weighted Resampling, das auch als Sampling/ 
Importance Resampling (SIR) bezeichnet wird, durchgeführten zusätzli- 
chen Sampling-Schritts ist wie folgt: Bildet die Hilfsverteilung h(z) die 
A-Posteriori-Verteilung p(z|d) nicht gut ab, so kann es sein, dass sie recht 
viele Samples liefert, die in Bereichen von Z liegen, in denen der Wert von 
p(z|d) sehr gering ist und nur wenige Samples, für die dies nicht gilt. In die- 
sem Fall kann dann die in Gleichung (4.5) vorgenommene Gewichtung dazu 
führen, dass im Wesentlichen nur sehr wenige Samples mit recht hohem Ge- 
wicht zur Approximation von E„(zia)L/(z)] beitragen und als Ergebnis eine 
Approximation von schlechter Qualität resultiert (vgl. z.B. auch [Car09]). 


Beim Weighted Resampling wird der dargestellten Problematik, die entstehen 
kann, wenn h(z) die A-Posteriori-Verteilung p(z|d) nicht gut abbildet, also 
entgegengewirkt. Da der Resampling-Schritt dabei allein auf Basis der zuvor 
mittels h(z) erzeugten Samples und unter Betrachtung von deren Gewichtung 
relativ zueinander erfolgt, bietet das Weighted Resampling allerdings z.B. in 
Fällen, in denen alle mittels h(z) erzeugten Samples in Bereichen von Z liegen, 
in denen der Wert von p(z|d) gering ist, auch keine Lösung, um eine schlechte 
Approximation von E,z)q)[f(Z)] zu verhindern (vgl. z.B. auch [Car09]). 


Die vorgestellten Beispiele des Importance Sampling und des Weighted Res- 
ampling verdeutlichen, dass die Schwierigkeit bei nicht-iterativen Verfahren 
in der Regel darin besteht, eine Hilfsverteilung zu bestimmen, welche einer- 
seits ein einfaches Sampling ermöglicht, anderseits bereits die A-Posteriori- 
Verteilung p(z|d) gut genug abbildet. Gelingt dies nicht, so kann die resul- 
tierende Approximation von E,(zjay[f(Z)] von unzureichender Qualität sein. 
Ein Ausweg könnte darin bestehen, die Anzahl m der Samples deutlich höher 
anzusetzen, allerdings wird dies in der Praxis kaum wünschenswert bzw. un- 
ter Umständen auch überhaupt nicht möglich sein. Die beschriebene Proble- 
matik verschärft sich mit zunehmender Dimension von Z. Aus diesen Grund 
wird in hochdimensionalen Problemstellungen heute üblicherweise auf itera- 
tive Verfahren, konkret sog. Markov Chain Monte Carlo (MCMC) Verfahren, 
zurückgegriffen (vgl. hierzu z.B. auch [Car09] und [Gam06]). 
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Abschließend sei noch angemerkt, dass bei der Umsetzung nicht-iterativer 
Verfahren oftmals auf die A-Priori-Verteilung p(z) als Hilfsverteilung zurück- 
gegriffen wird (vgl. z.B. die Darstellung in [Gam06]). In diesem Fall redu- 
ziert sich Gleichung (4.4) gerade auf die Festlegung w; = p(d|z). Die vor- 
ab für das Importance Sampling und das Weighted Resampling dargestell- 
ten Schwierigkeiten resultieren in diesem Fall also grob gesagt, wenn sich 
A-Priori-Verteilung und Likelihood-Funktion deutlich widersprechen. 


4.2.3.3 Markov Chain Monte Carlo Verfahren 


Bayes’sche Verfahren konnten sich in der Fachwelt erst dann als tatsäch- 
liche Alternative zu Verfahren der klassischen Statistik etablieren, als man 
das Potential von MCMC Verfahren zur approximativen Berechnung der 
A-Posteriori-Verteilung bzw. von Kenngrößen derselben erkannte und sie 
für diesen Zweck einzusetzen begann (vgl. z.B. auch [Ntz09]). Interessant 
dabei ist, dass MCMC Verfahren zu diesem Zeitpunkt bereits schon recht 
lange in der Physik bekannt waren, ihre Einsatzmöglichkeit im Kontext 
der Bayes’schen Theorie aber lange nicht gesehen wurde, siehe [Hit03] für 
weitere Details zur Historie. MCMC Verfahren lassen sich vor allem auch 
oft zur Lösung hochdimensionaler Problemstellungen erfolgreich anwenden. 
Durch das Verfügbarwerden entsprechender Methoden und Werkzeuge für 
die Bayes’sche Statistik verbesserte sich die Möglichkeit, Bayes’sche Verfah- 
ren in der Praxis überhaupt erst adäquat, d.h. vor allem auch auf ausreichend 
komplexe Modelle, anwenden zu können, deutlich. 


Im Kontext der Bayes’schen Theorie wird mittels MCMC Verfahren grob ge- 
sagt ein zeitdiskreter stochastischer Prozess mit Zustandsraum Z in Form 
einer sog. Markovkette erzeugt, welcher gegen die A-Posteriori-Verteilung 
p(z|d) konvergiert. Der zugrundeliegende Gedanke ist, dass man die Mar- 
kovkette, wenn sie sich lange genug entwickelt hat, nutzen kann, um nähe- 
rungsweise Samples der A-Posteriori-Verteilung zu generieren. 


Ein Markovkette mit Zustandsraum Z ist definiert als stochastischer Prozess 
(Xt )ren, welcher für alle A, Aj,..., A;_7 C Z, x € Z, t E N folgende Eigen- 
schaft besitzt: 
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PXırı E AIX, = X,Xt—ı E Atis we XY E A) 
=P(X,41 E A|X; = x) . (4.9) 


Ist Z diskret, so lässt sich Gleichung (4.9) auch wie folgt äquivalent schreiben 
(vgl. z.B. [Gam06]): Für alle yy,....¥.41 € Z, t E N muss gelten 


P&ırı = Wes |X = Ye Xt-1 = It, Xı = y1) 
= P(Xır1 = Wr41|Xt = Yt) - (4.10) 


Die Gleichungen (4.9) und (4.10) besagen gerade, dass zu jedem Zeitpunkt 
t € N der Zustand, in dem sich die Markovkette zum nächsten Zeitpunkt 
t + 1 befindet, nur vom aktuellen Zustand und nicht von der darüber hinaus- 
gehenden Historie abhängt. Die Theorie der Markovketten ist im allgemei- 
nen Fall komplexer als im Fall, dass Z diskret ist. Da die in Bezug auf MCMC 
Verfahren wichtigen Aussagen im Wesentlichen gleich sind in beiden Fallen, 
konzentriert sich die nachfolgende, bewusst kurz gehaltene Darstellung der 
mathematischen Grundlagen auf den diskreten Fall. Für den allgemeinen Fall 
sei z.B. auf [Gam06] und [Mey93] verwiesen. 


Eine homogene Markovkette (X;)sen liegt vor, wenn die Ubergangswahr- 
scheinlichkeit P(X;4; = x|X; = y) für alle x,y € Z unabhängig von t ist. 
Diese wird im Nachfolgenden dann abkürzend mit P(y, x) notiert, d.h. 


P(y,x) := PX = x|X; =y). (4.11) 


Eine Wahrscheinlichkeitsverteilung q(z) auf Z ist dann eine sog. stationäre 
Verteilung der Markovkette wenn fiir alle x € Z die folgende Bedingung 
erfüllt ist: 


q(x) = >) 40)PO, x). (4.12) 


yez 


Wenn die Markovkette also zu einem gewissen Zeitpunkt die stationäre Ver- 
teilung q(Z) besitzt, so behält sie gemäß Gleichung (4.12) diese zu allen spä- 
teren Zeitpunkten bei. 
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Es lässt sich zeigen, dass eine Markovkette eine stationäre Verteilung besitzt 
und auch unabhängig von ihrem Startpunkt, d.h. dem Punkt, in dem sie sich 
zum Zeitpunkt t = 1 befindet, gegen diese konvergiert, wenn sie bestimmte 
Eigenschaften erfüllt. Konkret muss die Markovkette dafür ergodisch, irredu- 
zibel und positiv rekurrent sein. Um den Umfang der vorliegenden Darstel- 
lung überschaubar zu halten, wird hinsichtlich der genauen Bedeutung dieser 
Eigenschaften sowie auf den formalen Beweis der zuvor gemachten Aussagen 
auf die Fachliteratur, z.B. [Gam06] oder [Bré99], verwiesen. 


Gelingt es, eine derartige Markovkette auf Z zu erzeugen, welche die A- 
Posteriori-Verteilung p(z|d) als stationäre Verteilung besitzt, und lässt man 
diese lange genug laufen, bis die Konvergenz zumindest näherungsweise 
eingetreten ist, so lassen sich anhand dieser iterativ näherungsweise Samples 
der A-Posteriori-Verteilung erzeugen. Damit dies in der Praxis auch gut 
durchführbar ist, besteht natürlich weiter der Wunsch, dass die Samples 
möglichst einfach erzeugt werden können. Üblicherweise können der sog. 
Metropolis-Hastings-Algorithmus oder der sog. Gibbs Sampler, welcher 
letztlich einen Spezialfall des Metropolis-Hastings-Algorithmus darstellt, 
benutzt werden, um eine entsprechende Markovkette zu erzeugen. Eine ge- 
nauere Darstellung dieser Algorithmen würde den Umfang der Darstellung 
sprengen und vor allem auch zu weit weg vom eigentlichen Thema der vor- 
liegenden Arbeit führen, weshalb darauf verzichtet wird. Beide Algorithmen 
werden in der (neueren) Standardliteratur zur Bayes’schen Theorie jedoch 
ausführlich beschrieben. Der Leser sei diesbezüglich konkret z.B. auf die 
Referenzen [Car09, Gam06, Mar07] sowie auf [Ntz09] für eine recht praxis- 
und Werkzeug-orientierte Darstellung verwiesen. 


Trotz ihrer Erfolge kann der Einsatz von MCMC Verfahren in der Praxis mit 
gewissen Schwierigkeiten verbunden sein. Diese sollen nachfolgend kurz 
skizziert werden. 


Wie aus Gleichung (4.9) und Gleichung (4.10) erkennbar ist, liefert das itera- 
tive Sampling mittels einer Markovkette keine tatsächlich voneinander unab- 
hängigen Samples. Diese Problematik kann in der Regel z.B. dadurch adres- 
siert werden, indem man nicht in jedem Schritt der Markovkette ein Sample 
zieht, sondern nur alle k € N Schritte, um so zu erreichen, dass die Samples 
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zumindest näherungsweise voneinander unabhängig sind. Um k passend zu 
wählen, müssen die sog. Autokorrelationen der Samples dabei separat ermit- 
telt werden (vgl. z.B. [Ntz09]). 


Eine wesentliche Schwierigkeit kann darüber hinaus die grundsätzliche Fra- 
ge darstellen, wie lange man die Markovkette laufen lassen muss, bis anhand 
von ihr tatsächlich Samples generiert werden können, welche näherungswei- 
se gemäß der stationären Verteilung verteilt sind. Da die verfügbaren theo- 
retischen Schranken hierzu i. A. eher schwach sind, müssen üblicherweise 
(auch verschiedene) empirische Verfahren zur Konvergenz-Diagnostik (vgl. 
z.B. [Ntz09]) angewandt werden, um hierzu ausreichend präzise Aussagen zu 
bekommen. 


Abschließend muss noch darauf eingegangen werden, dass der Einsatz von 
MCMC Verfahren auch in komplexen und hochdimensionalen Problemstel- 
lungen üblicherweise gut funktioniert, es aber durchaus auch Einschränkun- 
gen gibt. Dies kann insbesondere dann der Fall sein, wenn Z umfangreich und 
von heterogener Struktur ist - wie es gerade auch in vielen praktischen Auf- 
gabenstellungen der Informationsfusion der Fall sein wird. In [Zhu00] findet 
sich, dort konkret im Hinblick auf die Anwendung von MCMC Verfahren zur 
Objekterkennung in Bildern und zur Bildsegmentierung, die folgende, recht 
prägnante Aussage 


„Intuitively, in a complicated solution space, an arbitrarily de- 
signed MCMC is like a drunk man walking in a cluttered building 
in the dark.“ 


Die als Antwort auf diese Problematik entwickelten DDMCMC (Data-Driven 
Markov Chain Monte Carlo) Verfahren (siehe z.B. auch [Tu02] und [Bar20]) 
nutzen im Gegensatz zu normalen MCMC Verfahren zusätzlich sehr daten- 
nahe Information, z.B. aus einem Kanten- oder Eckendetektor, um die Kon- 
vergenz der dann umgesetzten Markovkette zu beschleunigen. Zum Design 
der entsprechenden Verfahren wird recht viel spezifisches Expertenwissen 
im Hinblick auf die konkret adressierte Aufgabenstellung bzw. Anwendung 
benötigt, welches dann auch in die konkrete Ausgestaltung des anvisierten 
DDMCMC Algorithmus einfließen muss. 
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4.3 Ansatzpunkt der Arbeit 


Die erstmalig in [Bey06a] veröffentlichte Idee lokaler Bayes’scher Fusionsan- 
sätze besteht darin, die in Abschnitt 4.1 dargestellte Problematik durch die 
Ermöglichung der Einnahme eines lokalen Standpunkts bei der Bayes’schen 
Fusion zu adressieren. Das Ziel ist es, die Fusion nur lokal, d.h. möglichst 
konzentriert auf Bereiche von Z vorzunehmen, in denen sich auch tatsäch- 
lich Aufgabenrelevantes abspielt. 


Zur genaueren Formulierung dieses Gedankens wurde in [Bey06a] eine Ana- 
logie zu kriminalistischen Ermittlungen zur Aufklärung eines Verbrechens 
hergestellt, also zu einem etablierten Prozess der realen Welt. Dies inspirierte 
wiederum das Konzept für eine agentenbasierte Fusionsarchitektur, in der un- 
terschiedliche Agenten in kooperativer Weise Spuren in Informationsbeiträ- 
gen identifizieren, auswerten sowie die damit korrespondierenden Hypothe- 
sen lokal durch die Einbeziehung zusätzlicher Informationsbeiträge weiter- 
entwickeln und letztlich zur Zusammenschau bereitstellen. Im vorliegenden 
Abschnitt, welcher eine aufbereitete und erweiterte Version der zuvor u.a. 
auch weiter in [Bey07] veröffentlichten Ergebnisse zur lokalen Bayes’schen 
Fusion darstellt, werden dieses Konzept sowie die erforderlichen Bezugspunk- 
te vorgestellt. 


4.3.1 Bezugspunkte 
4.3.1.1 Kriminalistische Ermittlungen 


Im Folgenden wird ein vereinfachter Blick auf kriminalistische Ermittlungen 
zur Aufklärung eines Verbrechens geworfen, mit dem Ziel, die für die Idee 
lokaler Bayes’scher Fusionsansätze relevanten Aspekte darzustellen. Es sei 
vorausgeschickt, dass die vorliegende Arbeit nicht den Anspruch erhebt, den 
Prozess kriminalistischer Ermittlungen im Detail zu eruieren und abzubilden. 
Ein derartiges Unterfangen ist weder notwendig noch sinnvoll, um die im 
Rahmen der Arbeit gesteckten Ziele zu erreichen. Angemerkt sei hierzu auch, 
dass sich in der Fachliteratur zwar unterschiedliche Modelle zur Beschreibung 
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des Prozesses kriminalistischer Ermittlungen finden, die Forschung diesbe- 
züglich aber längst nicht als abgeschlossen erachtet werden kann (vgl. z.B. 
[And19]). Die nachfolgend dargestellten Aspekte sind recht offensichtliche 
Erkenntnisse im Hinblick auf die Funktionsweise kriminalistischer Ermitt- 
lungen, welche aber auch durch entsprechende Aussagen in der Fachliteratur 
gestützt werden. Konkret hierzu angeführt seien die Referenzen [And19] und 
[Kuy82]. 


Kriminalistische Ermittlungen stellen insgesamt einen komplexen Prozess 
dar. Dieser kann in unterschiedlichen Ausprägungen (z.B. proaktiv oder 
reaktiv) erfolgen. Er umfasst in der Regel die Sammlung, Verarbeitung bzw. 
Analyse und Kombination relevanter Daten und Information. 


Wurde konkret festgestellt, dass sich ein Verbrechen ereignet hat, so wird ei- 
ne Untersuchung dieses Verbrechens eingeleitet. Das Ziel der Untersuchung 
besteht darin, ausreichend sicher feststellen zu können, ob gegen jemanden 
eine Anklage erhoben werden muss und diese dann gegebenfalls vorzube- 
reiten. Hierfür müssen unterschiedliche mögliche Erklärungen des Vorfalls 
(auch bezeichnet als Untersuchungslinien) erkundet werden. Die für die Un- 
tersuchung eingesetzten Ressourcen, z. B. die Anzahl der Ermittler, werden in 
der Regel von der Wichtigkeit bzw. Schwere des Falls mitbeeinflusst. 


Die Durchführung der Untersuchung beinhaltet oft zahlreiche, aneinander ge- 
koppelte Ermittlungsschritte. Dabei können Spuren, d.h. aus der verfügba- 
ren Information generierte Hinweise, welche sich z.B. auf die Identität oder 
den Aufenthaltsort eines Verdächtigen beziehen, genutzt werden, um Ansatz- 
punkte und Pfade zu identifizieren, an denen die weiteren Ermittlungen dann 
ausgerichtet werden können. Die vorliegende Information bzw. die daraus ge- 
nerierten Spuren werden ggf. entsprechend ihrer Relevanz priorisiert. 


Der erste Schritt der Untersuchung besteht i. A. darin, die (möglichen und rea- 
listischen) Hypothesen zu formulieren, welche den Vorfall erklären können. 
Um festzustellen, ob eine der Hypothesen ausreichend gestützt wird, muss 
durch Einbeziehung der vorliegenden bzw. der im Rahmen der Ermittlungen 
gewonnen Information der Informationsstand in Bezug auf die Hypothesen 
aktualisiert werden. Im Erfolgsfall kann mindestens am Ende der Untersu- 
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chung der Grad des Dafürhaltens bezüglich der Gültigkeit bestimmter Hypo- 
thesen als so hoch eingeschätzt werden, dass sie als bewiesen gelten können. 
Ist dies nicht der Fall, so muss die Untersuchung fortgesetzt oder ohne Ergeb- 
nis beendet werden. 


Während der Untersuchung werden die Ermittler mit heterogenen Informa- 
tionsbeiträgen aus unterschiedlichen Quellen konfrontiert. Hierzu können 
z.B. Zeugenaussagen, Fingerabdrücke, DNA-Spuren, Information aus Da- 
tenbanken zählen. Diese müssen letztlich von Personen interpretiert und in 
Zusammenschau betrachtet werden, welche über ausreichend Kompetenz 
und Kenntnis verfügen. Hierzu ist i. A. auch Vorwissen nötig. Auch kann 
es einer Abstimmung unterschiedlicher Ermittler erfordern. Weiter ist zur 
Erfassung, Verarbeitung und Auswertung spezifischer Daten oftmals die Un- 
terstützung der Ermittler durch Sachverständige nötig - nämlich dann, wenn 
die Ermittler, welche die eigentliche Untersuchung durchführen, nicht über 
ausreichend Fachexpertise verfügen, um diese Aufgabe selbst zu leisten. Die 
Sachverständigen müssen den Ermittlern dann ein für sie verständliches, rein 
auf die Auswertung der ihnen vorgelegten Daten bezogenes Auswerteergeb- 
nis liefern. Beispiele für derartige Sachverständige sind Gerichtsmediziner, 
DNA-Analysten, IT-Experten. 


Charakteristisch für die kriminalistischen Ermittlungen sind insbesondere die 
heterogenen Informationsquellen und die von den Ermittlern eingenomme- 
ne lokale Sicht. Die zur Aufklärung eines Verbrechens angestoßene Untersu- 
chung konzentriert sich auf bestimmte verdächtige Ereignisse bzw. Personen. 


Für eine finale Entscheidung bezüglich der Schuldigkeit eines Tatverdächtigen 
müssen nach Abschluss der Ermittlungen alle relevanten Teilergebnisse zu 
einem Ermittlungsresultat zusammengefasst werden. Sie können dann so an 
ein Organ der Judikative übergeben werden. 


4.3.1.2 Agenten 


In der agentenbasierten Fusionsarchitektur zur lokalen Bayes’schen Fusion 
sollen auf Basis eines Multi-Agenten-Systems in Analogie zu kriminalisti- 
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schen Ermittlern sog. Fusionsagenten zur Fusion heterogener Informations- 
quellen eingesetzt werden. Bevor dies in Abschnitt 4.3.2 genauer dargestellt 
wird, gibt der vorliegende Abschnitt einen kurzen Überblick über ausgewähl- 
te Grundlagen der Agenten-Theorie. 


Der Festlegung in [Cop04] folgend wird unter einem Agenten in der vorlie- 
genden Arbeit eine Entität verstanden, welche in der Lage ist, eine bestimmte 
Aufgabe auszuführen, um einen Menschen zu unterstützen. In diesem Sinne 
kann es sich bei einem Agenten also um ein Lebewesen, um einen Roboter 
oder auch um Software handeln. 


Ein Software-Agent ist dann gemäß [Cop04] wie folgt zu verstehen: 


„A software agent is a computer program designed to carry out 
some task on behalf of a user“ 


Es sei erwähnt, dass diese Begriffsfestlegung in der Fachliteratur alles ande- 
re als einheitlich ist. Folgende, spezifischere Definition wird z.B. in [W0009] 
verwendet: 


„An agent is a computer system that is situated in some environ- 
ment and that is capable of autonomous action in this environ- 
ment in order to meet its design objectives“ 


Ein weiteres Beispiel stellt nachfolgende, [Das10] entnommene Definition dar: 


„An agent is a computational entity with intentionality that per- 
forms user delegated tasks autonomously“ 


Wie bereits aus den obigen Definitionen erkennbar, werden Software- 
Agenten oft anhand bestimmter Eigenschaften definiert bzw. dann auch noch 
feiner eingeordnet. Oftmals werden dabei Repräsentationsfähigkeit, Autono- 
mie und Kommunikationsfähigkeit als grundlegende Eigenschaften gefordert 
(vgl. [Zar99]). Repräsentationsfähigkeit bedeutet, dass der Software-Agent 
in der Lage ist, anstelle seines Nutzers bestimmte Aktionen auszuführen. 
Der Begriff der Autonomie lässt sich in dem Sinne auffassen, dass der Agent 
selbstständig, d. h. vollständig ohne oder zumindest weitgehend ohne Eingriff 
eines anderen Agenten oder eines Menschen, handeln kann (vgl. [Wei05]). 
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Um seine Aufgabe zu erfüllen, muss der Software-Agent in der Regel auch 
in der Lage sein, mit seiner Umwelt, welche neben dem Nutzer u.a. andere 
Agenten, Computer-Programme und Informationsquellen beinhalten kann 
(vgl. [Wei99b]), interagieren können. 


In der Fachliteratur wird Software-Agenten nicht selten insbesondere auch die 
Eigenschaft der Intelligenz zugewiesen. Der Begriff Intelligenz ist dabei erst 
einmal recht schwammig. Er lässt sich z.B. präziseren, indem man fordert, 
dass ein intelligenter Software-Agent zusätzliches Wissen über seine Umwelt 
besitzt, und so auch in der Lage ist, seine Aufgabe zu erfüllen, wenn sich be- 
stimmte Aspekte der Aufgabe ändern oder wenn nicht per se für ihn erwart- 
bare Situationen in der Umwelt auftreten (vgl. [Cop04]). Aus der Forderung 
nach Intelligenz lassen sich dann wieder andere konkrete Eigenschaften, die 
der Software-Agent erfüllen muss, ableiten (vgl. [Wei99b]). Beispiele hierfür 
sind Reaktivität, Proaktivität und Lernfähigkeit. 


Ein reaktiver Software-Agent kann auf Ereignisse in seiner Umgebung, wel- 
che er dann auch z. B. mittels Sensoren oder durch Kommunikation wahrneh- 
men können muss, reagieren. Ein proaktiver Software-Agent kann nicht nur 
reagieren, sondern auch, getrieben z. B. durch ein bestimmtes Ziel, die Initiati- 
ve ergreifen. Ein lernfähiger Software-Agent istin der Lage, neue Information 
z. B. aus gemachten Beobachtungen oder aus bei ihm eintreffenden Hinweisen 
aus seiner Umwelt zu nutzen. Dadurch kann er dann auch seine Fähigkeiten 
zur Lösung der Aufgabe verbessern. 


Eine wichtige Eigenschaft ist oft auch die der Mobilität, welche besagt, dass 
der Software-Agent in der Lage ist, sich (üblicherweise über ein Netzwerk) 
von einem Ort an einen anderen zu transferieren. Mobile Software-Agenten 
könnten also insbesondere eingesetzt werden, um verteilt vorliegende Infor- 
mationsbestände zur Lösung ihrer Aufgabe bandbreitenschonender auszu- 
werten und einzubeziehen, als es der Fall wäre, wenn sie die Information hier- 
zu anfordern müssten (vgl. [Cop04]). Der Einsatz mobiler Software-Agenten 
bietet sich u. a. deshalb gerade auch in vernetzten Systeme an. 


Die Kombination unterschiedlicher Software-Agenten in einem Multi- 
Agenten-System wird oft genutzt, um die Gesamtleistung eines Systems zu 
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verbessern und um auch komplexe Aufgaben von Software-Agenten aus- 
führen lassen zu können. Dies ist dann möglich, ohne dass eine zentrale 
Kontrollinstanz vorgesehen werden muss. Gemäß [Cop04] verfügt jeder der 
Software-Agenten dabei in der Regel nur über unvollständige Information 
bzw. hat nicht die Fähigkeit, die gestellte Aufgabe alleine auszuführen. Durch 
den Einsatz eines solchen Multi-Agenten-Systems können dann auch eher 
einfach gestrickte Software-Agenten eingesetzt werden, um gemeinsam eine 
Aufgabe zu adressieren, welche ein eher hohes Maß an Intelligenz fordert. 
Auch können die Software-Agenten gemeinsam ein Gesamtproblem lösen, 
ohne dass die Anforderung besteht, dass der einzelne Software-Agent dieses 
komplett überschaut. 


Bei einem Multi-Agenten-System lassen sich kooperative und konkurrieren- 
de Multi-Agenten-Umgebungen unterscheiden. Ein Multi-Agenten-System, 
in dem Software-Agenten zur Erreichung einer gemeinsamen Zielsetzung 
zusammenarbeiten, stellt in der Regel für die einzelnen Software-Agenten 
eine kooperative Multi-Agenten-Umgebung dar. Wie in [Cop04] noch 
angeführt, bietet ein Multi-Agenten-System dadurch, dass die einzelnen 
Software-Agenten ihre Arbeiten parallelisieren können, auch die Möglich- 
keit, Aufgaben schneller zu lösen, als es sonst der Fall wäre, und durch das 
Vorsehen zusätzlicher Software-Agenten lässt sich ein derartiges System prin- 
zipiell auch mit zusätzlicher Robustheit gegenüber Ausfällen versehen. Legt 
man die eingangs angeführte, allgemeine Definition des Agenten-Begriffs 
zugrunde, so könnte ein Multi-Agenten-System auch so ausgelegt werden, 
dass z.B. menschliche Agenten und Agenten in Form von Software-Entitäten 
kooperieren und dabei ihre jeweiligen Stärken und Schwächen einbringen. 
In diesem Sinne könnte ein Multi-Agenten-System auch eine gute Basis zur 
Realisierung eines sog. Augmented Intelligence Systems (vgl. [Kir19]), in dem 
sich menschliche Intelligenz und künstliche Intelligenz bestmöglich zu sog. 
erweiterter Intelligenz ergänzen können, sein. 
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4.3.2 Agentenbasierte Fusionsarchitektur 


Das erstellte Konzept für die agentenbasierte Fusionsarchitektur, welches 
nachfolgend genauer beschrieben wird, sieht zur Durchführung der lokalen 
Bayes’schen Fusion zwei Phasen vor. In einer Initialisierungsphase werden 
in den zur Fusion vorliegenden Informationsbeiträgen Spuren im Hinblick 
auf den „wahren“ Wert der durch z verkörperten Größen des Interesses 
gewonnen. Mit diesen Spuren korrespondierende Hypothesen bezüglich des 
„wahren“ Werts von z werden dann zur weiteren Untersuchung an Fusions- 
agenten übergeben. In der darauf folgenden Ermittlungsphase beziehen die 
Fusionsagenten die bei Gewinnung der ihnen zugewiesenen Spuren noch 
nicht berücksichtigte Information ein, mit dem Ziel, die mit ihren Hypothe- 
sen korrespondierenden anfänglichen Degree-of-Beliefs weiterzuentwickeln. 
Zum Abschluss der Ermittlungsphase soll dann anhand der final resultie- 
renden Degree-of-Beliefs über die Gültigkeit der Hypothesen entschieden 
werden. Wesentlich bei diesem Vorgehen ist, dass jede Spur nur konzen- 
triert auf einen Ausschnitt des Wertebereichs Z der Größen des Interesses 
untersucht wird. 


Die nachfolgende genauere Darstellung des Konzepts für die agentenbasierte 
Fusionsarchitektur zielt darauf ab, die grundsätzlichen und für den weiteren 
Verlauf der Arbeit wesentlichen Aspekte dazulegen. Im konkreten Anwen- 
dungsfall können, z. B. je nach Zusammenhang der Informationsbeiträge (vgl. 
Abschnitt 2.4.1), Detail-Anpassungen an der beschriebenen Vorgehensweise 
zielführend oder sogar notwendig sein. 


4.3.2.1 Initialisierungphase 


Wie in Abb. 4.1 illustriert werden die für die Fusion vorliegendenden Infor- 
mationsbeiträge mittels spezifischer Operatoren ausgewertet, um Spuren, d.h. 
Auffälligkeiten in Z, zu ermitteln. Der zur Auswertung eines bestimmten In- 
formationsbeitrags eingesetzte Operator sollte dabei möglichst optimal auf 
die entsprechende Informationsquelle abgestimmt sein. Dies bedeutet, dass er 
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idealerweise das bestmögliche Ergebnis, das bei isolierter Betrachtung dieser 
Quelle bzw. der von ihr gelieferten Information möglich ist, liefern sollte. 


>! Spezifischer ES Spuren- ' 
- Operator liste 
Text, Text, . 
Text, Text! Spezifischer Spuren- OÐ 
ext, Tex! > > : => 
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Abbildung 4.1: Schematische Darstellung der Initialisierungsphase der agentenbasierten Fusi- 
onsarchitektur. Zum Abschluss dieser Phase werden für alle oder nur für die 
wichtigsten der Spuren in den Spurenlisten Fusionsagenten (F) instanziiert. 


Die gewonnen Spuren werden in Spurenlisten gesammelt. Werden sie dort 
entsprechend ihrer Signifikanz geordnet, so wird eine intrinsische Skalierbar- 
keit der lokalen Bayes’schen Fusion erreicht. Zum Abschluss der Initialisie- 
rungsphase kann dann nämlich für alle oder mindestens für die wichtigsten 
Spuren jeweils ein Fusionsagent instanziiert werden. Über die maximale An- 
zahl an eingesetzten Fusionsagenten kann dabei anhand der verfügbaren Res- 
sourcen entschieden werden. 


Besteht die Aufgabe z.B. darin, mittels lokaler Bayes’scher Fusion Objekte 
in einer Szene zu lokalisieren und zu klassifizieren, so macht es Sinn, Z als 
das kartesische Produkt Z = Z, X Zz X Z3 aller möglichen Objektpositionen 
Z, XZ, C R? und aller möglichen Objekttypen Z; festzulegen. Liefert die In- 
formationsquelle Nummer s weiter ein Luftbild der Szene, so könnte der quel- 
lenspezifische Operator o,(.) mittels eines Bildauswerteverfahrens zur Detek- 
tion und Klassifikation von Objekten der in Z; festgelegten Typen umgesetzt 
werden. Der Einsatz des Bildauswerteverfahrens sollte darauf abzielen, ein 
Ergebnis {0,(z)|Z € Z} über Z zu gewinnen, welches lokale Maxima für vor- 
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handene Objekte bestimmter Typen hat. Aus den durch die Auswertung re- 
sultierenden lokalen Maxima leiten sich die Spuren in der mit d, korrespon- 
dierenden Spurenliste ab. Eine Spur hat dabei dann formal gesehen die Form 


(cCstPucey,(Zlds)) » teil..,T}. (4.13) 


Dabei bezeichnen cs, € Z das Argument des jeweiligen lokalen Maximums 
von 0,(-) und T, die Anzahl der durch die Auswertung des Informations- 
beitrags d, gewonnen Spuren. Weiter stellt Puces,)(Zlds) eine sog. lokale 
Degree-of-Belief-Verteilung dar. Diese wird geeignet, gegebenenfalls (d.h. 
bei entsprechender Eignung von 0,(.) hierfür) direkt unter Einbeziehung des 
von 0,(.) gelieferten Resultats, erzeugt. Lokal bedeutet, dass sie sich auf eine 
nicht allzu große Umgebung U(c, ,) um c, , bezieht, d.h. es gilt U(c,,) C Z, 
[Uesi] << |Z. 


Nach Auswertung aller vorliegenden Informationsbeiträge d,, s € {1,... ,S}, 
ist T i= D T, dann die Gesamtzahl aller in den Spurenlisten erfassten 
Spuren. Wie im Beispiel bereits dargestellt bestehen diese formal gesehen je- 
weils aus einen Paar der Form „Auffälligkeit“ und „korrespondierende lokale 
Degree-of-Belief-Verteilung‘“, vgl. Gleichung (4.13). Zum Abschluss der Initia- 
lisierungsphase werden dann J < T Fusionsagenten instanziiert. 


Die in der Ermittlungsphase dann in kooperativer Weise von den Fusions- 
agenten umgesetzte lokale Bayes’sche Fusion erfolgt somit insgesamt gesehen 
konzentriert auf die folgende Teilmenge von Z: 


J 
U:=|JuUW, UMcz. (4.14) 
ja 


Dabei bildet jeder Teilausschnitt UY von Z eine Spur ab, welche einem Fu- 
sionsagenten zugewiesen wurde, d.h. er hat die Form UY) = U(c, t) mit 
te {1,..., Tg}, se {1,...,S} 
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4.3.2.2 Ermittlungsphase 


Die zum Ende der Initialisierungsphase instanziierten Fusionsagenten haben 
nun die Aufgabe, die mit ihren Spuren korrespondierenden lokalen Degree- 
of-Belief-Verteilungen weiterzuentwickeln. Dafür besucht jeder von ihnen die 
im Hinblick auf seine Spur noch nicht berücksichtigten Informationsquellen 
und betreibt, jeweils konzentriert auf den mit der Spur korrespondierenden 
Ausschnitt von Z, Bayes’sche Fusion. 


In jedem der dabei durchzuführenden Fusionsschritte wird die lokale 
Degree-of-Belief-Verteilung des jeweiligen Fusionsagenten als (lokale) A- 
Priori-Verteilung aufgefasst, in welche die zusätzlich zu berücksichtigende 
Information (lokal) mittels des Satzes von Bayes (vgl. Gleichung (3.22)) in- 
tegriert werden kann. Die so resultierende (lokale) A-Posteriori-Verteilung 
stellt dann wiederum die (lokale) A-Priori-Verteilung für den nächsten Fu- 
sionsschritt, den der entsprechende Fusionsagent durchzuführen hat, dar. 
Wie in Abschnitt 3.5.2 erläutert kann gerade beim Vorliegen heterogener 
Informationsquellen oftmals von einer bedingten Unabhängigkeit der In- 
formationsbeiträge (gegeben z) ausgegangen werden. In diesem Fall liefert 
dann auch die Anwendung des in Gleichung (3.25) formulierten sequentiellen 
Fusionsschemas exakte Ergebnisse. 


Zur Veranschaulichung des durch die Fusionsagenten umzusetzenden Vorge- 
hens ist in nachfolgender Abb. 4.2 die sequentielle Weiterentwicklung einer 
lokalen Degree-of-Belief-Verteilung durch einen Fusionsagenten für den Fall 
von vier Informationsquellen illustriert. Der hier exemplarisch dargestellte 
Fusionsagent ist zuständig für die durch c3 | induzierte Spur, welche mit dem 
ersten Eintrag in der durch Auswertung des Informationsbeitrags d, resultier- 
ten Spurenliste korrespondiert. Dieser Fusionsagent hat in der Ermittlungs- 
phase nun die Aufgabe, seine anfängliche lokale Degree-of-Belief-Verteilung 
Puces,) 2143) durch Einbeziehung der in Form der weiteren Informations- 
beiträge d,, d und d; vorliegenden Information (lokal) weiterzuentwickeln. 
Hierzu besucht er die noch nicht berücksichtigten Quellen nach und nach und 
führt jeweils einen (lokalen) Fusionsschritt durch. Im letzten Schritt resultiert 
dann seine finale lokale A-Posteriori-Verteilung Pucc; „(Zldı,d2,d3,d,), wel- 
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che die von allen vier Informationsquellen gelieferte Information lokal, d.h. 
in Bezug auf den mit der ihm zugewiesenen Spur korrespondierenden Aus- 
schnitt U(c3 |) von Z, berücksichtigt. 


Put) Eldi, dz, dz, d4) 


Quelle 1: d) => 
Puc, ,)Zld2, da, d4) 
Quelle 2: d, => 


Quelle 3: d; = eje- -= -p 


Puc) Zld, d4) 


(c31, Pues „(214)) 


Quelle 4: d, => 


Puc) Zld;) 


Abbildung 4.2: Schematische Darstellung der schrittweisen Weiterentwicklung einer lokalen 
Degree-of-Belief-Verteilung durch einen Fusionsagenten (F) unter Zuhilfenah- 
me von Experten-Agenten (E) für die Fusion der Beiträge von vier Informati- 
onsquellen. 


Falls ein Fusionsagent bei der Erledigung seiner Aufgabe nicht imstande ist, 
selbst auf bestimmte Information zuzugreifen oder diese selbst auszuwerten, 
d. h. die für die Fusion erforderliche (lokale) Likelihood-Funktion zu bilden, so 
kann er diese Aufgabe an einen sog. Experten-Agenten auslagern. Ein solcher 
Experten-Agent kann ein auf die Bereitstellung bzw. Auswertung der entspre- 
chend benötigten Information spezialisierter Software-Agent oder auch ein 
menschlicher Agent sein. Der Einsatz menschlicher Experten-Agenten macht 
u.a. dann Sinn, wenn für eine bestimmte Art von Information keine ausrei- 
chend leistungsfähigen bzw. qualitativ ausreichend hochwertigen maschinel- 
len Auswerte-Algorithmen verfügbar sind. 


Nach Abschluss der Ermittlung, d.h. der (lokalen) Weiterentwicklung der 
lokalen Degree-of-Belief-Verteilungen durch die Fusionsagenten gilt es, 
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die resultierenden finalen lokalen Degree-of-Belief-Verteilungen in Zu- 
sammenschau zu bringen und ggf. weitere, auf dem insgesamt ermittelten 
Informationsstand basierende Schlüsse zu ziehen. Hierzu könnte in der agen- 
tenbasierten Fusionsarchitektur ggf. eine auf weiteren Software-Entitäten 
basierende Art finale Instanz (eine „Jury“) umgesetzt werden. Denkbar wäre 
darüber hinaus aber auch, dass die Fusionsagenten diese Aufgabe bzw. Teile 
davon selbst kollaborativ und/oder in Kooperation mit dem Menschen lösen. 


4.3.2.3 Diskussion des vorgestellten Konzepts 


Das Konzept für die agentenbasierte Fusionsarchitektur sieht ein hohes Maß 
an Skalierbarkeit vor. Das Ziel besteht letztlich darin, die konkrete Ausgestal- 
tung der lokalen Bayes’schen Fusion bestmöglich an die verfügbaren Ressour- 
cen anpassbar zu machen. Nachfolgend werden wesentliche Aspekte diesbe- 
züglich dargestellt, auch unter Bezugnahme von Erkenntnissen aus Kapitel 2. 
Zusätzliche Aspekte werden sich im weiteren Verlauf der Arbeit, vor allem 
aus den angestellten mathematisch-formalen Untersuchungen ergeben. Die- 
se Aspekte werden dann an der jeweiligen Stelle und unter Bezugnahme auf 
die jeweiligen Ergebnisse diskutiert werden. 


Durch die in Abschnitt 4.3.2.1 darlegte Möglichkeit zur Ordnung der Spuren in 
den Spurenlisten entsprechend ihrer Signifikanz kann bei Bedarf erst einmal 
eine Priorisierung der lokalen Bayes’schen Fusion auf besonders „heiße“ Spu- 
ren vorgenommen werden. Falls sich dadurch kein Fusionsresultat von ausrei- 
chender Güte bestimmen lässt und/oder weiterer Informationsbedarf besteht, 
so könnten die von den Fusionsagenten durchgeführten Ermittlungen dann 
in einem zweiten Schritt auf weitere Spuren ausgeweitet werden. 


Durch eine vom theoretischen Standpunkt aus unkompliziert realisierbare 
Modifikation des durch die Fusionsagenten umgesetzten Fusionsschemas 
könnte die Ermittlung in Bezug auf eine bestimmte Spur statt durch einen 
auch durch mehrere Fusionsagenten erfolgen, um so schneller ein Resultat zu 
erzielen. Wichtig ist dabei dann, dass sich die entsprechenden Fusionsagenten 
abstimmen, wer von ihnen den Beitrag einer bestimmten Informationsquelle 
in seiner lokalen Degree-of-Belief-Verteilung berücksichtigt. Weiter muss 
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dafür gesorgt werden, dass durch die parallele Ermittlung entlang derselben 
Spur das Vorwissen nicht mehrfach in die entsprechenden lokalen Degree-of- 
Belief-Verteilungen eingeht und so das zum Schluss in der Zusammenschau 
resultierende Ergebnis verfälscht wird. Prinzipiell könnte man diese Proble- 
matik auch lösen, indem man mehrfach berücksichtigtes Vorwissen nach 
Abschluss der Ermittlungen wieder entsprechend heraus dividiert. 


Die agentenbasierte Fusionsarchitektur ist modular in dem Sinne, dass sie 
recht unkompliziert erweitert werden kann, wenn neue Informationsquellen, 
zu deren Auswertung ggf. auch zusätzliche Arten von Expertise erforderlich 
sind, hinzukommen. In dem Fall könnte man eine Erweiterung des Agenten- 
Teams um neue Experten-Agenten vorsehen, um so auch die Auswertung der 
neu verfügbaren Information zu ermöglichen. Auch könnten neue Experten- 
Agenten als Austausch für bereits vorhandene eingebunden werden. Dies bie- 
tet sich an, wenn neue („bessere“) Möglichkeiten zur Auswertung bestimm- 
ter Arten von Information verfügbar werden. Ein Anwendungsfall diesbezüg- 
lich könnte auch der sein, dass menschliche Experten-Agenten nach und nach 
durch Software-Agenten ersetzt werden, wenn maschinelle Auswerteverfah- 
ren, welche zuvor nicht in ausreichender Qualität und/oder Leistungsfähig- 
keit verfügbar waren, eingebunden werden können. 


Im vorstellten Konzept für die agentenbasierte Fusionsarchitektur wurde da- 
von ausgegangen, dass die zur Fusion heranzuziehenden Informationsquellen 
vorab bekannt sind. Eine naheliegende Erweiterung des Konzepts besteht dar- 
in, die Fusionsagenten oder andere Agenten auch nach a priori unbekannten 
Informationsquellen recherchieren zu lassen und ihnen dabei ggf. auch Data- 
Mining-Aufgaben zu übertragen. 


Es liegt auf der Hand, dass sich das Konzept für die agentenbasierte Fusions- 
architektur insbesondere auch für die Umsetzung in großen Netzwerken an- 
bietet. Einen wichtigen Anwendungsfall stellen gerade auch die zuvor in der 
Arbeit schon mehrfach thematisierten system-, ebenen- und/oder organisa- 
tionsübergreifenden Verbünde dar. Hier liegen oft umfangreiche Mengen an 
Daten und Information und ggf. auch hilfreiche (menschliche und/oder soft- 
waretechnisch realisierte) Expertise weit verteilt vor und die Fusion muss i. A. 
möglichst bandbreitenschonend erfolgen. 
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Insbesondere (jedoch nicht ausschließlich) wenn die Informationsfusion 
in solchen Verbünden realisiert wird, kann die mit der Umsetzung der 
Bayes’schen Fusion verbundene Problematik nicht nur darin bestehen, dass 
der zur Berechnung der A-Posteriori-Verteilung anfallende Aufwand wie in 
Abschnitt 4.1 dargestellt rechnerisch nicht tragbar ist. Vielmehr kann auch 
bereits die Bereitstellung der zu ihrer Berechnung erforderlichen Größen 
(z.B. in Form der ursprünglichen Informationsbeiträge oder der Likelihood- 
Funktionen) problematisch bzw. nicht realisierbar sein, wenn man diese, wie 
bei der globalen (d.h. nicht lokalen) Bayes’schen Fusion der Fall, auf ganz Z 
bezogen benötigt und sie ggf. auch entsprechend übermittelt werden müssen. 
Dabei ist auch davon auszugehen, dass im Fall der lokalen Bayes’schen 
Fusion bestimmte, ggf. hinsichtlich ihrer Kapazitäten begrenzte Expertise 
zur Auswertung der Informationsbeiträge nur in geringerem Umfang in 
Anspruch genommen werden muss, als es im Fall der globalen Bayes’schen 
Fusion nötig wäre. 


Die lokale Bayes’sche Fusion könnte im Kontext von Verbünden grundsätz- 
lich weiter auch dazu eingesetzt werden, unterschiedliche Fragen/Aufgaben- 
stellungen von unterschiedlichen Entscheidungsträgern im Verbund jeweils 
konzentriert auf die für diese relevanten Aspekte zu adressieren. In diesem 
Sinne würde es dann auch möglich, die resultierende Information gerade dort 
bereitzustellen, wo sie tatsächlich auch benötigt wird, was ebenfalls essentiell 
für ein optimales Ressourcenmanagement ist. 
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5.1 Einführung 


Wie in Abschnitt 4.3 dargestellt wurde, besteht das Ziel lokaler Bayes’scher 
Fusionsansätze gerade darin, die Bayes’sche Fusion nicht global bezüglich 
des gesamten Wertebereichs Z der Größen des Interesses vorzunehmen, 
sondern nur lokal, d.h. möglichst konzentriert auf Bereiche von Z, in denen 
sich auch tatsächlich Aufgabenrelevantes abspielt. In anderen Worten soll 
die Bayes’sche Fusion auf eine Teilmenge U des Wertebereichs Z der Größen 
des Interesses konzentriert werden, welche so gewählt ist, dass sie mit hoher 
Wahrscheinlichkeit das Fusionsergebnis bzw. die zur Bestimmung desselben 
tatsächlich relevanten Teile von Z beinhaltet. Diese Teilmenge U C Z wird 
im weiteren Verlauf der Arbeit als lokaler Kontext bezeichnet. 


Wird die lokale Bayes’sche Fusion auf Basis der agentenbasierten Fusionsar- 
chitektur kollaborativ durch J € N Fusionsagenten umgesetzt, von welchen 
jeder in der Ermittlungsphase gerade für seine Spur zuständig ist, so betreibt 
(gemäß Gleichung (4.14)) jeder Fusionsagent lokale Bayes’sche Fusion in Be- 
zug auf einen Anteil UÜ) des lokalen Kontexts U, j € {1,... ,J}. 


Werden die zur Berechnung der A-Posteriori-Verteilung auf ganz Z erforder- 
lichen Operationen eingeschränkt auf den lokalen Kontext U = U; Xx... Uy, 
so reduziert sich der in Gleichung (4.1) angegebene Aufwand von 


N 
(ZD =O@%), n :="\) TT ZI (5.1) 
n=1 
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auf 


oU) =0(0), 60 := (5.2) 


Wie aus Gleichung (5.2) erkennbar ist, wächst der Aufwand zur Berechnung 
der (dann lokalen) A-Posteriori-Verteilung i. A. ebenfalls exponentiell, nun 
aber mit der mittleren Dimension des lokalen Kontexts U. Um tatsächlich ei- 
nen deutlichen Vorteil bei der numerischen („punktweisen“) Berechnung der 
(dann lokalen) A-Posteriori-Verteilung zu erreichen, muss |U| << |Z] gelten. 


Wie zuvor in Abschnitt 4.3.2.3 dargestellt wurde, wird die Herausforderung 
oftmals auch nicht nur darin bestehen, dass bei der Bayes’schen Fusion der 
Aufwand zur Berechnung (und ggf. auch zur weiteren Auswertung) der 
A-Posteriori-Verteilung nicht tragbar ist. Insbesondere können auch bereits 
die Bestimmung und Übermittlung der zu ihrer Berechnung erforderlichen 
Größen problematisch, möglicherweise sogar nicht realisierbar, sein. Hinzu 
kommt, dass gerade in Verbünden das Vorgehen, in Form der A-Posteriori- 
Verteilung jeweils stets zuerst ein maximal umfassendes Fusionsresultat zu 
berechnen, auch konzeptionell dem für ein optimales Ressourcenmanage- 
ment notwendigen Prinzip, dass Information letztlich nur dort und in der 
Form bereitgestellt werden sollte, wie sie auch tatsächlich benötigt wird, 
widerspricht. Das Konzept für die agentenbasierte Fusionsarchitektur hat 
verdeutlicht, dass Ansätze zur lokalen Bayes’schen Fusion gerade auch 
Potential bieten, diesen Anforderungen nachzukommen. 


Aus theoretischer Hinsicht bedarf es zur genaueren Entwicklung lokaler 
Bayes’scher Fusionsansätze einer Anpassung der Bayes’schen Fusionsmetho- 
dik an lokale Betrachtungen. In Abschnitt 5.2 werden die mathematischen 
Grundlagen dazu geschaffen und die resultierenden lokalen Bayes’schen Mo- 
delle werden ausführlich analysiert. Ergänzend und in gewissem Sinne auch 
komplementär hierzu werden auf Basis einer in Teilen heuristischen Vor- 
gehensweise ausgewählte Teilaspekte im Hinblick auf die lokale Bayes’sche 
Fusion in Abschnitt 5.3 anhand eines möglichst anwendungsnahen Beispiels 
umgesetzt und untersucht. 
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5.2 Lokale Bayes’sche Modelle 


Im vorliegenden Abschnitt wird der Frage nachgegangen, ob und wie ge- 
nau sich Lokalität konform zur Bayes’schen Theorie beschreiben lässt. Hier- 
zu werden die in Abschnitt 3.3 und Abschnitt 3.4.2 aufbereiteten Grundla- 
gen aus der Wahrscheinlichkeitstheorie und der Bayes’schen Inferenz aufge- 
griffen und erweitert, bevor auf dieser Basis dann lokale Bayes’sche Model- 
le mathematisch formalisiert und untersucht werden. Die nachfolgende Dar- 
stellung stellt eine überarbeitete und erweiterte Version der hierzu zuvor in 
[San06], [San07], [San08] und [San09b] veröffentlichen Ergebnisse zur loka- 
len Bayes’schen Fusion dar. 


5.2.1 Bayes’sche Experimente 


Gemäß Abschnitt 3.4.2 setzt sich ein Bayes’sches (statistisches) Modell aus 
der Annahme einer Verteilungsklasse {p(d|z)|z € Z} und einer A-Priori- 
Verteilung p(z) auf Z zusammen. Betrachtet man, anders als in einer kon- 
kreten Aufgabenstellung, in der der Wert von d bereits fixiert ist, diese beide 
Größen als Funktionen von z und d, so wird durch diese eine Produktwahr- 
scheinlichkeitsverteilung p(z,d) = p(z)p(d|z) auf Z x D induziert. 


In [Flo90] wird die einem Bayes’schen Modell zugrundeliegende mathemati- 
sche Modellierung im abstrakten maßtheoretischen Sinne auf Basis des mit 
p(z,d) korrespondierenden Produktwahrscheinlichkeitsraums formuliert. 
Dieser wird in [Flo90] als Bayes’sches Experiment bezeichnet. Die Betrach- 
tung eines solchen Bayes’schen Experiments ist für die vorliegende Arbeit 
hilfreich, da daraus deutlich wird, dass es verschiedene Ansatzpunkte gibt, 
den Gedanken, dass die Bayes’sche Fusion nicht global über ganz Z, sondern 
konzentriert auf einen lokalen Kontext U C Z erfolgen soll, umzusetzen. 
Weiter wird daraus gut erkennbar, wie das aus mathematischer Hinsicht 
jeweils geschehen kann. 


Entsprechende Ansatzpunkte werden in den nachfolgenden Abschnitten ge- 
nauer herausgearbeitet und untersucht. Hierfür muss im vorliegenden Ab- 
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schnitt jedoch zuerst die einem Bayes’schen Experiment zugrundeliegende 
mathematische Modellierung in den Grundzügen eingeführt werden. 


Die Angabe der Verteilungsklasse {p(d|z)|z € Z} korrespondiert mit der An- 
gabe einer Struktur der Form (D,D, {R,|z € ZU. Der Terminologie in [Fl090] 
folgend wird diese Struktur als statistisches Experiment bezeichnet. Es ist da- 
bei (D,D) ein messbarer Raum mit einer o-Algebra D über D (vgl. Definition 
3.1). Weiter ist {P,|z € Z} eine Menge von Wahrscheinlichkeitsmaßen über 
(D,D) (vgl. Definition 3.2). 


Die Angabe der A-Priori-Verteilung p(z) korrespondiert mit der Erweiterung 
der in Form des statistischen Experiments vorliegenden mathematischen 
Modellierung durch Angabe eines geeignet gewählten Wahrscheinlichkeits- 
raums der Form (Z,Z, P). Hierbei sind Z eine o-Algebra über Z und P ein 
Wahrscheinlichkeitsmaß auf dem messbaren Raum (Z,2). 


Hieraus lässt sich dann ein Bayes’sches Experiment in Form eines Produkt- 
wahrscheinlichkeitsraums festlegen': 


(Z x D,o(Z x D), M1). (5.3) 


Dabei bezeichnet o(Z xD) die kleinste o-Algebra über ZXD, die alle Elemente 
der Form E x F mit E E Z und F E D enthält. II bezeichnet das durch P und 
P, festgelegte Produktwahrscheinlichkeitsmaß auf (Z x D,o(Z x D)). 


Um die in den nachfolgenden Abschnitten eingeführten Ansätze, Lokalitat 
im Bayes’schen Sinne zu formulieren, besser nachvollziehen zu können, ist es 
wichtig zu verstehen, wie genau in einem probabilistischen Modell festgelegt 
wird, welche Informationsstände in Bezug auf einen interessierenden Sach- 
verhalt grundsätzlich überhaupt beschrieben werden können. Deshalb wird 


n 


Der Vollständigkeit halber sei anmerkt, dass die umgekehrte Zerlegung eines derartigen Pro- 
duktwahrscheinlichkeitsraums in die mit p(z|d) und p(d) korrespondierenden Komponenten 
nicht immer existiert (vgl. [Flo90]). Im Hinblick auf die in der vorliegenden Arbeit nachfolgend 
umgesetzte Vorgehensweise ist dieser Aspekt aber nicht relevant, da man davon ausgehen kann, 
dass diese Zerlegung existiert. 
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auf diesen Aspekt im nachfolgenden Abschnitt vorab kurz grundlegend ein- 


gegangen. 


5.2.2 Beschreibbare Informationsstände 


Es sei (0,A,P) ein allgemeiner, gemäß Definition 3.2 festgelegter Wahr- 
scheinlichkeitsraum. Wie aus Definition 3.2 erkennbar ist, ist die Definitions- 
menge des Wahrscheinlichkeitsmaßes P stets durch die zugehörige o-Algebra 
A vorgegeben. Hieraus ergibt sich direkt, dass diese gerade festlegt, welche 
Informationsstände im Hinblick auf einen interessierenden Sachverhalt auf 
Basis einer solchen probabilistischen Modellierung grundsätzlich überhaupt 
erreichbar sind und auch welche Information in Bezug auf den interessieren- 
den Sachverhalt eingebracht werden kann. 


Die Wahrscheinlichkeit P(A) einer Menge A C Q existiert also nur, wenn A € 
A gilt. Ebenso existiert die bedingte Wahrscheinlichkeit P(A|B) für Mengen 
A,B C Q nur, wenn neben der Bedingung A € A auch die Bedingung B € A 
erfüllt ist und zusätzlich P(B) > 0 gilt (vgl. Definition 3.3). Zur Illustration 
dieser Aussagen seien nachfolgend drei verschiedene Beispiele betrachtet. Es 
bezeichne hierfür ¢ in abstrakter Weise einen bestimmten interessierenden 
Sachverhalt. 


Ist A die gröbste o-Algebra über Q, die überhaupt möglich ist, d.h. A = 
{2,0}, so bedeutet dies, dass man letztlich keinerlei (nichttriviale) Informati- 
on über den interessierenden Sachverhalt erlangen bzw. einbringen kann. In 
diesem Fall können nämlich nur die Wahrscheinlichkeiten dafür, ob € Ø 
oder ob ¢ € Q gilt, angegeben werden. Es gilt notwendigerweise P(@) = 0 
und P(Q) =1. 


Ist Q abzählbar und ist A die feinste o-Algebra über Q, die überhaupt möglich 
ist, d.h. A = P(Q), wobei P(Q) die Potenzmenge von Q bezeichnet, so kann 
unabhängig davon, was der „wahre“ Wert von ¢ ist, prinzipiell (die gemäß 
der Festlegung von Q) maximale Information diesbezüglich erlangt werden. 
In diesem Fall kann nämlich für jedes Elementarereignis der Form {w} mit 
w E Q die Wahrscheinlichkeit dafür, dass { = w gilt, angegeben werden 
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und damit auch für jede andere Teilmenge A von Q die Wahrscheinlichkeit 
dafür, dass ¢ € A gilt. Ebenso kann auch jeder Informationsstand der Form 
¢ € A durch Berechnung der entsprechenden bedingten Wahrscheinlichkeit 
eingebracht werden. 


Es sei B = {B}, ... ,Byz} eine Partition von Q in M Teilmengen fiir ein M EN. 
Betrachtet man für beliebige Teilmengen B von B die Vereinigung | Beg B 
so bildet die Gesamtheit der so resultierenden Mengen eine o-Algebra A über 
Q (vgl. [Beh13]). Diese wird als die von B erzeugte o-Algebra bezeichnet. Er- 
gänzt man den dadurch resultierenden messbaren Raum (Q, A) um ein Wahr- 
scheinlichkeitsmaß P, so stellen die Elemente der Partition B die feingra- 
nularsten Ereignisse, über welche Wahrscheinlichkeitsaussagen gerade noch 
möglich sind, dar. 


Abbildung 5.1: In der linken Teilabbildung ist eine Partition 8 = {B1, ... ,Bg} eines Grundraums 
Q illustriert. Die rot markierte Teilmenge C dieses Grundraums ist kein Element 
der von B erzeugten O-Algebra. Sie ist jedoch ein Element der von der Partition 
erzeugten O-Algebra, wenn die Partition so verfeinert wird, dass C keine echten 
Teilmengen von Elementen der Partition mehr enthält. Die mittlere und rechte 
Teilabbildung illustrieren zwei Beispiele für entsprechende Verfeinerungen. Die 
kleinstmögliche Erweiterung C von C, die ein Element der von der (ursprüng- 
lichen) Partition B erzeugten o-Algebra ist, ist B4 U B7. 


Ist C eine Teilmenge von Q mit CnB„, # Ø und CN By, # Bm, für 
ein Mp € {1,...,M}, so ist P(C) nicht definiert. Ebenso ist auch die beding- 
te Wahrscheinlichkeit P(-|C) nicht definiert. D.h. es ist nicht möglich, die 
Wahrscheinlichkeit dafür, dass ¢ € C gilt, (exakt) anzugeben und es ist nicht 
möglich, Wissen dahingehend, dass ¢ € C gilt, (in exakter Form) einzubrin- 
gen. Hierfür wäre zuerst der Übergang zu einer feingranulareren o-Algebra 
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A, bezüglich welcher C messbar ist, nötig. Dieser Sachverhalt ist in Abb. 5.1 
exemplarisch für den FallM = 9 illustriert. Alternativ könnte man noch C so 
erweitern, dass die resultierende Teilmenge Č in A enthalten ist, und statt der 
Aussage ¢ € C die (ungenauere) Aussage ¢ € Č betrachten. 


5.2.3 Lokalitat durch Einschränkung 


Eine Möglichkeit, den Gedanken, dass die Bayes’sche Fusion nicht global über 
ganz Z, sondern konzentriert auf einen lokalen Kontext U C Z erfolgen soll, 
umzusetzen, besteht darin, die Annahme, dass sicher z € U gilt, in die zu- 
grundeliegende probabilistische Modellierung einzuspeisen. Diese Möglich- 
keit wird im vorliegenden Abschnitt genauer betrachtet. 


5.2.3.1 Lokales Bayes’sches Experiment 


Die beim ursprünglichen globalen Bayes’schen (statistischen) Modell ange- 
nommene Verteilungsklasse reduziert sich durch die Annahme, dass ze U 
sicher gilt, auf {p(d|z)|z € U}. Das korrespondierende statistische Modell ist 
dementsprechend (D,D, {P,|z E U}). 


Im Hinblick auf den a priori verfiigbaren Informationsstand in Bezug auf den 
„wahren“ Wert von z führt die Annahme, dass z € U sicher gilt, dazu, dass das 
Wahrscheinlichkeitsmaß P auf (Z,2) in das bedingte Wahrscheinlichkeitsmaß 
P(-|U) überführt werden muss. Hierfür muss der lokale Kontext U messbar 
sein, d.h. U muss derart festgelegt worden sein, dass U € 2 gilt, und es muss 
weiter P(U) > 0 sein. 


Aus Definition 3.3 ergibt sich sofort, dass für jedes Ereignis A € 2 gilt 


P(ANU) 


(5.4) 
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Es ergibt sich insbesondere 


PA fils ANU=A 
P(A|U) = 4 PU) (5.5) 
0 falls ANU =Ø. 


Da das Wahrscheinlichkeitsmaß P(-|U) außerhalb von U den Wert Null an- 
nimmt, lässt sich seine Definitionsmenge entsprechend einschränken. Hierzu 
wird das Konstrukt einer sog. Spur-o-Algebra benötigt. Diese ist in der Wahr- 
scheinlichkeitstheorie wie folgt definiert: 


Definition 5.1. Es seien (Q,A) ein messbarer Raum (gemäß Definition 3.1) und 
Ø + B C Q. Dann heißt dieo-Algebra 


Apg :={ANB]A E A} (5.6) 


die Spur-o -Algebra von A in B. 
Bei der Spur-o-Algebra Ajg gemäß Definition 5.1 handelt es sich um eine o- 
Algebra über B. Ein Beweis dieser Aussage findet sich z.B. in [Mei05]. 


Da der lokale Kontext U als messbar angenommen wird, ergibt sich im kon- 
kret vorliegenden Fall 


Zu = {A|A CU,AE 2} š (5.7) 


P(-|U) stellt ein Wahrscheinlichkeitsmaß über dem messbaren Raum (U,2 |) 
dar. Der a priori verfügbare Informationsstand in Bezug auf den „wahren“ 
Wert von z lässt sich beim Übergang zu einem lokalen Bayes’schen Modell, 
welches die Annahme, dass sicher z € U gilt, macht, also modellieren, indem 
man den Wahrscheinlichkeitsraum (Z,Z, P) durch den Wahrscheinlichkeits- 
raum (U,Z)y, P(-|U)) ersetzt. 


Das lokale Bayes’sche Experiment ist damit dann wie folgt festgelegt: 


(U x D,o(&\y x D), ID (5.8) 
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Analog zum ursprünglichen globalen Bayes’schen Experiment gemäß Glei- 
chung (5.3) bezeichnet o(2|u X D) die kleinste o-Algebra über U x D, welche 
alle Elemente der Form EXF mit E € 2y und F € D enthält und II bezeich- 
net das nun durch P(-|U) und P, festgelegte Produktwahrscheinlichkeitsmaß' 
auf (U x D,o(Z\y X D)). 


5.2.3.2 Lokale Bayes’sche Fusion 


Da sich im globalen Bayes’schen Modell der a priori vorliegende Informa- 
tionsstand in Bezug auf z durch die A-Priori-Verteilung p(z) beschreiben 
lasst, ergibt sich in mathematischer Hinsicht sofort, dass dieser im lokalen 
Bayes’schen Modell durch die lokale A-Priori-Verteilung 


_ pt) 
~ P(U) 


p(z|U) : (5.9) 


beschrieben werden kann. 


Der nachfolgende Satz gibt Antwort auf die Frage, wie auf dieser Basis dann 
die eigentliche lokale Bayes’sche Fusion erfolgt: 


Satz 5.2. Es sei ein lokales Bayes’sches Modell durch die Annahme der Vertei- 
lungsklasse {p(d|z)|z € U} und der lokalen A-Priori-Verteilung p(z|U) gege- 
ben. Es bezeichne p(z|d,U) die zugehörige lokale A-Posteriori-Verteilung, welche 
für z € U definiert ist. Diese berechnet sich gemäß der Regel 


p(d|z)p(z|U) 


p(z|d,U) = T; p(dlz)p(z|U) dz x I(d|z) p(z|U) ; (5.10) 
und es gilt 
_ PEIA) 
p(z|d,U) = PUJA) (5.11) 


1 Da das Produktwahrscheinlichkeitsmaß im weiteren Verlauf der Arbeit nicht mehr benötigt 
wird, wird der Einfachheit halber keine separate Notation für dieses im lokalen Bayes’schen 
Experiment eingeführt. 
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Beweis. In Gleichung (5.10) ist gerade die Anwendung des Satzes von 
Bayes im lokalen Bayes’schen Modell zur Berechnung der (hier) lokalen 
A-Posteriori-Verteilung formuliert. Vgl. Gleichung (3.5), Gleichung (3.6) und 
Gleichung (3.7) im Hinblick das Analogon im globalen Bayes’schen Modell. 


Hiervon ausgehend berechnet man unter Nutzung von Gleichung (5.9) leicht, 


dass gilt 
p(d|z)p(z|U) 

en Sy plalz)p(z|U)dz (5.12) 
_ PADE _ 
Su pldlz)p(z)dz (5.13) 
2 p(zid) 
Su p(zld) dz (5.14) 
_ pzid) 
~ PUID’ (5.15) 


5.2.3.3 Bezug zur globalen Bayes’schen Fusion 


Das lokale Bayes’sche Modell ergibt sich in eindeutiger Weise aus dem loka- 
len Kontext U C Z, auf den die Einschränkung erfolgt, und den Bestandteilen 
des globalen Bayes’schen Modells, welche sich tatsächlich auf U beziehen: 
Die Likelihood-Funktion im lokalen Bayes’schen Modell ist identisch mit der 
Likelihood-Funktion I(d|z) im globalen Bayes’schen Modell. Der einzige Un- 
terschied besteht darin, dass sie nur für z € U bestimmt und ausgewertet 
werden muss. Es sei angemerkt, dass diese Aussage offensichtlich auch spe- 
ziell für die (bezüglich d) normierte Version p(d|z) der Likelihood-Funktion 
gilt. Weiter ergibt sich beim Übergang vom globalen zum lokalen Bayes’schen 
Modell die lokale A-Priori-Verteilung p(z|U) durch das Einschränken der glo- 
balen A-Priori-Verteilung p(z) auf den lokalen Kontext U. Will man diesen 
Übergang mathematisch abbilden, so ist die globale A-Priori-Verteilung p(z) 
für z € U zu bestimmen. Um sie gemäß Gleichung (5.9) auf U umzunormie- 


128 


5.2 Lokale Bayes’sche Modelle 


ren, ist weiter die Kenntnis der globalen A-Priori-Wahrscheinlichkeit P(U) 
des lokalen Kontexts U nötig. 


Tatsächlich muss die Bestimmung der lokalen A-Priori-Verteilung p(z|U) al- 
lerdings nicht notwendigerweise wie zuvor beschrieben ausgehend von der 
globalen A-Priori-Verteilung p(z) erfolgen. Sie kann auch durch die direk- 
te Anwendung eines Mechanismus gemäß Abschnitt 3.5.1, um den bezüglich 
z a priori vorliegenden Informationsstand - nun nur im Hinblick auf U - 
in eine (objektive) Wahrscheinlichkeitsverteilung (im Sinne der Degree-of- 
Belief-Interpretation von Wahrscheinlichkeit) zu überführen, erfolgen. Da- 
bei wird die globale A-Priori-Wahrscheinlichkeit P(U) des lokalen Kontexts 
U dann nicht explizit berechnet, was letztlich bedeutet, dass sie im lokalen 
Bayes’schen Modell per se nicht als bekannt angenommen werden kann. 


Innerhalb des lokalen Bayes’schen Modells ist gemäß der Festlegung von Zu 
der Informationsstand in Bezug auf eine Menge A C U probabilistisch be- 
schreibbar, wenn dieser auch im globalen Bayes’schen Modell probabilistisch 
beschreibbar war, d.h. wenn A € 2 gilt (vgl. Gleichung (5.7)). Allerdings er- 
folgt dies nun auf Basis der lokalen Wahrscheinlichkeiten. Global vorhandene 
Ereignisse AC U = Z \ U sind kein Teil des lokalen Bayes’schen Modells, 
ihre Existenz wird (lokal) völlig ignoriert. Informationsstände im Hinblick auf 
entsprechende globale Ereignisse A € 2 lassen sich im lokalen Bayes’schen 
Modell also weder beschreiben noch berücksichtigen. Dies steht im Einklang 
mit der Tatsache, dass die Bildung des lokalen Bayes’schen Modells auf der 
Annahme, dass sicher z € U gilt, beruhte. Gilt für ein global vorhandenes 
Ereignis, dass es sowohl Anteile aus U als auch aus U enthält, so muss im 
lokalen Bayes’schen Modell der in Z \ U enthaltene Anteil ignoriert werden. 
Gilt z.B. A = {z*, z**} mit z* € U, z* ¢ U, so kann im lokalen Bayes’schen 
Modell also statt A nur A = {z*} berücksichtigt werden. 


Im Folgenden soll nun noch der Zusammenhang zwischen lokalen Wahr- 
scheinlichkeitsaussagen und globalen Wahrscheinlichkeitsaussagen näher 
beleuchtet und hinsichtlich der resultierenden Konsequenzen untersucht 
werden. 
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Grundsätzlich ist der Grad des Dafürhaltens in ein Ereignis A umso größer 
anzusehen, je höher die Wahrscheinlichkeit dieses Ereignisses ist. Die globale 
A-Posteriori-Wahrscheinlichkeitsverteilung p(z|d) induziert auf dieser Basis 
eine Präferenzrelation > auf den Ereignissen in 2: 


AB: | p(z|d) dz > | p(zld)d, A,Be2. (5.16) 
A B 


Ebenso induziert die lokale A-Posteriori-Wahrscheinlichkeitsverteilung 
p(z|d,U) eine Präferenzrelation >|, auf den Ereignissen in Zy: 


A žu B :& | pea dz> J pedaz, A, B E€ Zu . (5.17) 
A B 


Da p(z|d) und p(z|d,U) bis auf den Faktor P(U|d) identisch sind, sind die 
(lokale) Präferenzordnung >y und die (globale) Präferenzordnung > konsis- 
tent. D. h. es gilt für Ereignisse A, B in Z)y (welche wegen der 2-Messbarkeit 
von U auch in 2 enthalten sind): 


A>uB®A>B. (5.18) 


Die analoge Aussage gilt auch a priori, da sich die globale A-Priori-Verteilung 
p(z) und die lokale A-Priori-Verteilung p(z|U) gerade um den Faktor P(U) 
unterscheiden. Ist der lokale Degree-of-Belief in ein Ereignis A € Zy also (a 
priori oder a posteriori) höher als der lokale Degree-of-Belief in ein Ereignis 
B € Zy, so weiß man, dass dies ebenso im globalen Bayes’schen Modell gilt. 


Da der Faktor, um welchen sich der Wert von p(z) bzw. p(z|d) beim Übergang 
vom globalen zum lokalen Bayes’schen Modell ändert, gleich für alle ze U 
ist, gilt weiter, dass die Prior-Odds sowie die Posterior-Odds von Ereignissen 
A,B € Zy invariant unter dem Übergang sind, d.h. es gelten: 


Sa p(z)dz = Sa p(z|U) dz 
Jg p(z) dz Ss p(z|U) dz í 
N sen rc 
Globale Lokale 
Prior-Odds Prior-Odds 


(5.19) 
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und 
Ja ptzld)dz _ f, p(z|d, U) dz 
Ss P(ald)dz Sa p(zld, U)dz ` 


Globale Lokale 
Posterior-Odds Posterior-Odds 


(5.20) 


Ist also der lokale Degree-of-Belief in ein Ereignis A € Zy (a priori oder a 
posteriori) c-mal der lokale Degree-of-Belief in ein Ereignis B € 2 |, so weiß 
man, dass dies ebenso im globalen Bayes’schen Modell gilt. 


Die Schwierigkeit besteht allerdings darin, dass sich allein aus der Kennt- 
nis des lokalen Bayes’schen Modells keine Aussage darüber treffen lässt, wie 
hoch der Degree-of-Belief eines lokal betrachteten Ereignisses im globalen 
Bayes’schen Modell absolut gesehen ist. Dieser Sachverhalt und die daraus 
resultierenden Konsequenzen sind in Abb. 5.2 für den Fall Z = {v,, ... v4} il- 
lustriert. Als zugehörige o-Algebra ist dabei Z = P(Z) angenommen. Weiter 
sind im in Abb. 5.2 betrachteten Beispiel U = {n,n} und V = {v3,v4} zwei un- 
terschiedliche, hier exemplarisch gewählte lokale Kontexte, auf die die lokale 
Bayes’sche Fusion jeweils eingeschränkt erfolgt(e). 


In Abschnitt (I) von Abb. 5.2 ist die A-Posteriori-Verteilung p(z|d) im globalen 
Bayes’schen Modell dargestellt. Diese wird durch die Annahme, dass sicher 
ze U gilt, letztlich in die in Abschnitt (II) dargestellte lokale A-Posteriori- 
Verteilung p(z|d,U) überführt. Aus der Annahme, dass sicher z € V gilt, re- 
sultiert dagegen letztlich die in Abschnitt (III) dargestellte lokale A-Posteriori- 
Verteilung p(z|d,V). 


Die Annahme, dass z sicher im jeweiligen lokalen Kontext U bzw. V ent- 
halten ist, führt dazu, dass die Wahrscheinlichkeit der Ereignisse, welche 
jeweils lokal betrachtet werden, lokal überschätzt wird. Das Ausmaß, in 
welchem das beim Übergang von p(z|d) zu p(z|d,U) bzw. p(z|d,V) passiert, 
ist in Abschnitt (II) und Abschnitt (III) von Abb. 5.2 für die im jeweiligen 
lokalen Kontext enthaltenen Elementarereignisse {v;} anhand der schwarz 
markierten Abschnitte in den Balken, welche deren lokale A-Posteriori- 
Wahrscheinlichkeiten illustrieren, dargestellt. 
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Da der Übergang von der globalen A-Posteriori-Verteilung zur lokalen A- 
Posteriori-Verteilung (für Ereignisse, welche im lokalen Kontext enthalten 
sind) anhand einer Division durch die A-Posteriori-Wahrscheinlichkeit des lo- 
kalen Kontexts erfolgt, ist diese Überschätzung absolut gesehen umso größer, 
je unwahrscheinlicher der lokale Kontext global gesehen ist. Da im in Abb. 5.2 
dargestellten Beispiel die A-Posteriori-Wahrscheinlichkeit P(U|d) = 0,8 des 
lokalen Kontexts U eher hoch ist, ist die Überschätzung bei der in Abschnitt 
(II) dargestellten, zugehörigen lokalen A-Posteriori-Verteilung p(z|d,U) eher 
gering. Anders ist die Situation jedoch bei der lokalen A-Posteriori-Verteilung 
p(z|d,V), welche in Abschnitt (II) dargestellt ist. Da hier die A-Posteriori- 
Wahrscheinlichkeit des lokalen Kontexts V mit P(V|d) = 0,2 eher gering ist, 
findet eine deutlich ausgeprägte Überschätzung statt. 


Da aus einem lokalen Bayes’schen Modell nicht in eindeutiger Weise auf das 
zugehörige globale Bayes’sche Modell zurückgeschlossen werden kann, wä- 
re in dem in Abb. 5.2 dargestellten Beispiel z.B. auch die in Abschnitt (IV) 
angegebene globale A-Posteriori-Verteilung q(z|d) kompatibel mit den bei- 
den in Abschnitt (II) und Abschnitt (III) dargestellten lokalen A-Posteriori- 
Verteilungen, d.h. es gilt p(z|d,U) = q(z|d,U) und p(z|d,V) = q(z|d,V). 
Anders als beim Übergang von Abschnitt (I) zu Abschnitt (I) und Abschnitt 
(II) ist in diesem Fall der lokale Kontext U mit Q(U |d) = 0,2 global gesehen 
eher unwahrscheinlich, während der lokale Kontext V mit Q(V|d) = 0,8 glo- 
bal gesehen eher wahrscheinlich ist. D. h. in diesem Fall ist die Überschätzung 
der lokalen A-Posteriori-Wahrscheinlichkeiten in Abschnitt (I) recht ausge- 
prägt, während sie in Abschnitt (III) eher gering ausfällt; dieser Sachverhalt ist 
in Abb. 5.2 nicht in den Balken in Abschnitt (II) und Abschnitt (M) illustriert. 


Aus der Kenntnis der in Abschnitt (II) von Abb. 5.2 dargestellten lokalen A- 
Posteriori-Verteilung ergibt sich, dass auch global gesehen das Ereignis {v,} 
a posteriori um den Faktor 5/3 mal wahrscheinlicher ist als das Ereignis {14}. 
Ebenso ergibt sich aus der Kenntnis der in Abschnitt (III) dargestellten lokalen 
A-Posteriori-Verteilung, dass auch global gesehen das Ereignis {v3} a posterio- 
rium den Faktor 3 mal wahrscheinlicher ist als das Ereignis {v4}. Wie anhand 
der beiden in Abschnitt (I) und Abschnitt (IV) dargestellten möglichen glo- 
balen A-Posteriori-Verteilungen erkennbar, ermöglicht dieses Wissen jedoch 
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per se keine Aussage darüber, ob der jeweilige lokale Maximum-A-Posteriori- 
Schätzwert v, bzw. v, global gesehen tatsächlich ebenfalls besonders relevant 
ist. Eine entsprechende Aussage wäre nur möglich, wenn man einschätzen 
könnte ob die globale A-Posteriori-Wahrscheinlichkeit des lokalen Kontexts 
U bzw. V tatsächlich auch entsprechend hoch ist. Da im vorliegenden Beispiel 
Z = UUV ist, weiß man, dass der globale Maximum-A-Posteriori-Schätzwert 
entweder v, oder v, sein muss. Würde Z noch zusätzliche Elemente enthal- 
ten, welche weder in U noch in V enthalten ist, so könnte grundsätzlich nicht 
ausgeschlossen werden, dass der globale Maximum-A-Posteriori-Schätzwert 
im nicht betrachteten Anteil Z \ (U U V) enthalten ist. 


Die zuvor anhand des in Abb. 5.2 dargestellten Beispiels beschriebene grund- 
sätzliche Schwierigkeit im Hinblick auf die Einschätzung der (absoluten) Rele- 
vanz von Ergebnissen der lokalen Bayes’schen Fusion, welche eingeschränkt 
auf einen lokalen Kontext U C Z erfolgt, ist in Abb. 5.3 ergänzend noch ein- 
mal für den kontinuierlichen, zweidimensionalen Fall illustriert. 


Die in der Mitte von Abb. 5.3 illustrierte globale A-Posteriori-Verteilung 
p(z1,Z2|d) stellt eine Mixtur zweier Normalverteilungen dar. Genauer gilt 


2 
p(z1,22|d) = X wiqi(Z1:Z2) . (5.21) 


i=1 


Dabei ist q1ı(Z1,Z2) gemäß N((3,3)", I2)) und q2(Z1,Z2) ist weiter gemäß 
N((-3,-3)',1,)) verteilt, wobei I, die zweidimensionale Einheitsmatrix 
bezeichnet. Die Gewichte in der Mixtur betragen @, = 10/11 und ©, = 1/11. 


Auf der rechten und linken Seite von Abb. 5.3 sind zwei lokale A-Posteriori- 
Verteilungen illustriert, welche sich wiederum aus unterschiedlichen Festle- 
gungen des lokalen Kontexts ergeben. Auf der linken Seite korrespondiert der 
lokale Kontext mit einem quadratischen, um das globale Maximum (3,3)' von 
p(z1,2,|d) zentrierten Bereich. Auf der rechten Seite korrespondiert der lo- 
kale Kontext mit einem analogen quadratischen Bereich, welcher hier jedoch 
um das sehr gering ausgeprägte lokale Maximum (—3,— 3)" gelegt wurde. Aus 
Abb. 5.3 ist gut erkennbar, dass sich rein auf Basis der (jeweils auf den loka- 
len Kontext eingeschränkten) lokalen A-Posteriori-Verteilung nicht erkennen 
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lässt, ob man in Form des lokalen Kontexts tatsächlich einen (global) relevan- 


ten Bereich von Z adressiert oder nicht. 


-10 0 10 
x 
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Abbildung 5.3: Die in der Mitte dargestellte globale A-Posteriori-Verteilung ist auf der linken 
und auf der rechten Seite der Abbildung jeweils auf einen lokalen Kontext ein- 
geschränkt. Während im links dargestellten Fall der lokale Kontext tatsächlich 
mit einem global gesehen äußerst relevanten Bereich korrespondiert, gilt dies 
im rechts dargestellten Fall nicht. 


In Bezug auf eine Darstellung möglicher Fehlschlüsse, welche resultieren kön- 
nen, wenn ein Bayes’sches Modell bestimmte, a posteriori relevante Hypo- 
thesen nicht abbildet, sei ergänzend noch auf die Referenz [Fit08] verwiesen. 
Diese betrachtet das Thema im Hinblick auf die Anwendung Bayes’scher In- 
ferenz für Aufgabenstellungen der Wissenschaftsgeschichte. Die hierzu auf- 
gezeigte Problematik ist rein vom mathematischen Standpunkt aus gesehen 
verwandt mit der in der vorliegenden Arbeit aufgezeigten. Sie ist im Detail 
jedoch anders ausgeprägt, konkret wird untersucht, unter welchen Bedingun- 
gen a priori unplausible wissenschaftliche Theorien als mögliche Hypothesen 
vorab ausgeschlossen werden können. Dieser Zielsetzung entsprechend ba- 
sieren die in [Fit08] dazu angestellten Untersuchungen auf anders gelagerten 
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mathematischen Ansatzpunkten, als es in der vorliegenden Arbeit, genauer 
in Kapitel 6 und Kapitel 7, der Fall sein wird. 


5.2.3.4 Fazit 


Die Umsetzung des Gedankens, dass die Bayes’sche Fusion nicht global über 
ganz Z, sondern konzentriert auf einen lokalen Kontext U C Z erfolgen soll, 
auf Basis der Annahme, dass sicher z € U gilt, lässt sich im Hinblick auf die 
Bestimmung der hierfür benötigen Größen, d.h. lokale A-Priori-Verteilung 
p(z|U) und Likelihood-Funktion l(d]|z) für z € U, methodisch gesehen recht 
einfach umsetzen. Ebenso lässt sich die eigentliche lokale Bayes’sche Fusion 
mittels des in Gleichung (5.10) angegebenen Berechnungsschemas unkompli- 
ziert durchführen. 


Lokale berechnete Angaben hinsichtlich der Wahrscheinlichkeit von (global 
vorhandenen) Ereignissen, welche im lokalen Kontext enthalten sind, sind re- 
lativ zueinander genommen auch aus globaler Sicht vollständig korrekt. Die 
Absolut-Werte von lokal berechneten Wahrscheinlichkeiten entsprechen je- 
doch nicht denen, welche man auf Basis des globalen Bayes’schen Modells 
erhalten würde. Sie sind global gesehen nur dann näherungsweise korrekt, 
wenn sichergestellt werden kann, dass die Wahrscheinlichkeit des lokalen 
Kontexts U im globalen Bayes’schen Modell nahe Eins liegt. Diese Aussagen 
gelten gleichermaßen a priori und a posteriori. 


Da in diesem Sinne rein auf Basis des lokalen Bayes’schen Modells nicht auf 
die (absolute) globale Relevanz der lokal betrachteten Ereignisse geschlossen 
werden kann, ist es wichtig, dass Mechanismen, um den lokalen Kontext U ge- 
eignet festzulegen, verfügbar sind. Wünschenswert wären auch Möglichkei- 
ten, die Adäquatheit des lokalen Kontexts U bzw. des resultierenden lokalen 
Bayes’schen Modells tatsächlich (möglichst quantitativ) bewerten zu können. 


5.2.4 Lokalität durch Vergröberung 


Eine andere Möglichkeit, den Gedanken, dass die Bayes’sche Fusion nicht glo- 
bal über ganz Z, sondern konzentriert auf einen lokalen Kontext U C Z er- 
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folgen soll, umzusetzen, besteht darin, die probabilistische Modellierung so 
auszugestalten, dass im Hinblick auf U eine genaue, d.h. detaillierte, Fusion 
erfolgt, der Anteil U := Z \ U dagegen nur vergröbert betrachtet wird. 


Prinzipiell wäre es denkbar, U hierzu inm € N unterschiedliche Teilmengen 
mit m << |U| aufzuteilen. Nachfolgend wird der naheliegendste Fall m = 1 
betrachtet, eine Adaption der Ergebnisse auf den Fall m > 1 ist grundsätzlich 
möglich. 


In der Fachliteratur finden sich speziell für das Anwendungsgebiet Bayes’sche 
Netze (vgl. z.B. [Jen07]) recht umfangreiche Forschungsergebnisse im Hin- 
blick auf die Vergröberung und auch Verfeinerung der möglichen Zustände 
von Zufallsvariablen. Konkret angeführt seien die Referenzen [Cha90, Liu02, 
Liu98]. Bis auf die grundlegenden mathematischen Formeln im Hinblick auf 
die Konstitution der Vergröberungen auf Basis der ursprünglichen Wahr- 
scheinlichkeitsverteilungen sind diese Arbeiten allerdings nicht im engeren 
Bezug zur vorliegenden Arbeit zu sehen. Zum einen ergeben sich durch das 
anders gelagerte Anwendungsgebiet andere (Bayes’sche) Modelle und anders 
gelagerte Anforderungen an die benötigten Verfahren. Zu anderem ist der 
in der vorliegenden Arbeit gewählte formal wahrscheinlichkeitstheoretische 
Ausgangspunkt der Betrachtungen ein anderer. 


5.2.4.1 Lokales Bayes’sches Experiment 


Die anvisierte vergröberte Sichtweise im Hinblick auf Ü lässt sich umsetzen, 
indem man das lokale Bayes’sche Experiment wie folgt festgelegt: 


(Z x D,o(o(Zy,U) x D), IT). (5.22) 


Dabei bezeichnet o(ZyU) die kleinste o-Algebra, welche sowohl die Be- 
standteile der bereits in Abschnitt 5.2.3 verwendeten Spur-o-Algebra Zy von 
Z in U und zusätzlich das Komplement U des lokalen Kontexts U als atomares 
Element enthalt. Wieder analog zum urspriinglichen (globalen) Bayes’schen 
Experiment gemäß Gleichung (5.3) bezeichnet o(a(Z\y U) x D) dann die 
kleinste o-Algebra über Z x D, welche alle Elemente der Form E x F mit 
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Ee o(Z\y.U) und Fe D enthält. Außerdem bezeichnet II das resultierende 
Produktwahrscheinlichkeitsmaß, welches nun über der Menge der Ereignisse 
aus o(o(2 0,0) x D) definiert ist. Wie bereits in Abschnitt 5.2.3.1 wird ange- 
nommen, dass der lokale Kontext U messbar bezüglich Z ist, d.h. dass U E€ Z 
gilt, und dass P(U) > 0 ist. 


Das mit der A-Priori-Verteilung p(z) korrespondierende Wahrscheinlich- 
keitsmaß P auf (Z,2) wird dann beim Übergang zum lokalen Bayes’schen 
Experiment nur insoweit verändert, als dass seine Definitionsmenge ein- 
geschränkt wird auf o(Zu,0). Die Wahrscheinlichkeiten aller dabei dann 
weiterhin betrachteten Ereignisse A € 0(21,U) werden dabei nicht verän- 
dert. Unter Zuhilfenahme von Gleichung (5.7) erkennt man, dass für ein in 
°(2|u,U) enthaltenes Ereignis A entweder A C U mit A € Z oder A = BUU 
mit B C U und B € Z gilt. Dies bedeutet, dass Wahrscheinlichkeitsaussagen 
bezüglich aller in U enthaltenen Ereignisse also weiterhin in exakter Form 
möglich sind, der Anteil U von Z dagegen nur vergröbert (im Sinne von: 
kumuliert) betrachtet wird. 


Die beim ursprünglichen (globalen) Bayes’schen (statistischen) Modell ange- 
nommene Verteilungsklasse {p(d|z)|z € Z} muss hierfür dann nur für ze U 
detailliert ausgewertet werden. Für z € U wird sie im Rahmen der lokalen 
Bayes’schen Fusion nur vergröbert, d.h. in Bezug auf die Annahme z € U ins- 
gesamt, ausgewertet. In diesem Sinne kann das korrespondierende statistische 
Modell technisch gesehen modifiziert werden zu (D,D, {P|z E U} U {Pr}. 
Dabei muss das Wahrscheinlichkeitsmaß Pr so beschaffen sein, dass es die 
Wahrscheinlichkeit der Ereignisse A € D unter der Hypothese, dass ze U 
gilt, widerspiegelt. 


5.2.4.2 Lokale Bayes’sche Fusion 


Da im globalen Bayes’schen Modell der a priori verfügbare Informationsstand 
in Bezug auf z durch die A-Priori-Verteilung p(z) beschrieben wird, ergibt 
sich, dass sich dieser im lokalen Bayes’schen Modell, welches eine kumulierte 
Betrachtung von U umsetzt, durch folgende Größen beschreiben lässt: 
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p(z) (nur im Detail betrachtet) fürzeU, (5.23) 


P(U) = T p(z)dz. (5.24) 
Ü 


Im Rahmen der lokalen Bayes’schen Fusion müssen diese, den a priori vorlie- 
genden Informationsstand beschreibenden Größen dann in die entsprechen- 
den, den a posteriori vorliegenden Informationsstand beschreibenden Größen 
überführt werden. Berechnet werden müssen also 


p(z|d) (nur im Detail betrachtet) für z E U, (5.25) 


P(U|d) = i p(z|d) dz. (5.26) 
U 


Der nachfolgende Satz gibt analog zu Satz 5.2 Antwort auf die Frage, wie die 
Durchführung der eigentlichen lokalen Bayes’sche Fusion dann erfolgt: 


Satz 5.3. Ein globales Bayes’sches Modell, welches durch die Annahme der Ver- 
teilungsklasse {p(d|z)|z € Z} und der (globalen) A-Priori-Verteilung p(z) gege- 
ben ist, werde lokal beschrieben, indem der Informationsstand im Hinblick auf 
U nur noch kumuliert betrachtet wird. Dann gilt: 


p(zld) = an «I(d|z)p(z) fürzeU, (5.27) 
-p _ P(d|U)p(U) de 
mit 
-~ „_ Jo plalz)p(z) dz 
PAUS N (5.29) 
-~ ._ So lKdlz)p(z) dz 
I(d|U) := -P0 (5.30) 


Die Proportionalitätsbeziehungen in Gleichung (5.27) und Gleichung (5.28) sind 
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dabei so aufzufassen, dass insgesamt gelten muss 


ji p(z|d) dz + P(Üld)=1. u 
U 


Es sei angemerkt, dass im Hinblick auf das Anwendungsgebiet Bayes’sche 
Netze das Analogon zu Gleichung (5.29) bzw. Gleichung (5.30) z.B. in [Liu98] 
formuliert und als Basis für weitere Arbeiten genommen wird. 


Beweis. Gemäß des Satzes von Bayes gilt für allez € Z: 


p(d|z)p(z) 
p(d) 


Vgl. Gleichung (3.5), Gleichung (3.6) und Gleichung (3.7). Gleichung (5.27) ist 
gerade diese Beziehung formuliert für ze U. 


p(zld) = x I(d|z)p(z) . (5.32) 


Mit Gleichung (5.29) und Gleichung (5.30) gilt weiter: 


P(Üld) = f vedaz (5.33) 
Ü 
_ p(dlz)p(z) 
= l ay dz (5.34) 
_  p(a|U)P(U) 
a (5.35) 
«x I(d|U)P(U). (5.36) 


5.2.4.3 Bezug zur globalen Bayes’schen Fusion 


Anhand der in Gleichung (5.23) und Gleichung (5.24) bzw. in Gleichung (5.25) 
und Gleichung (5.26) angegebenen Größen wird im lokalen Bayes’schen Mo- 
dell der Informationsstand im Hinblick auf den „wahren“ Wert von Z a prio- 
ri bzw. a posteriori probabilistisch exakt so abgebildet, wie es im globalen 
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Bayes’schen Modell der Fall ist. Alle A-Priori-Wahrscheinlichkeiten und A- 
Posteriori-Wahrscheinlichkeiten, welche im lokalen Bayes’schen Modell de- 
finiert sind, sind also identisch zu denen im globalen Bayes’schen Modell. Je- 
doch wird der Informationsstandstand im Hinblick auf U nur noch kumuliert 
probabilistisch adressiert. 


Das lokale Bayes’sche Modell ergibt sich in eindeutiger Weise aus dem lo- 
kalen Kontext U und dem globalen Bayes’schen Modell. Anders als in Ab- 
schnitt 5.2.3, wo die Lokalität durch eine vollständige Einschränkung auf den 
lokalen Kontext U modelliert wurde, sind hier nun aber nicht mehr nur die 
Anteile des globalen Bayes’schen Modells relevant, welche sich auf den loka- 
len Kontext U beziehen. Genauer gesagt müssen zur Durchführung der lo- 
kalen Bayes’schen Fusion Likelihood-Funktion I(d|z) und der entsprechende 
Ausschnitt der (globalen) A-Priori-Verteilung p(z) für z € U bekannt sein. 
Weiter müssen im Hinblick auf U die globale A-Priori-Wahrscheinlichkeit 
P(U) des Komplements U des lokalen Kontexts U und der Wert von I(d|U) 
bekannt sein bzw. bestimmt werden. 


Die Bestimmung der globalen A-Priori-Verteilung p(z) für z € U und der 
A-Priori-Wahrscheinlichkeit P(Ū) des Komplements U des lokalen Kontexts 
U können prinzipiell durch die Anwendung eines Mechanismus gemäß 
Abschnitt 3.5.1, um den a priori im Hinblick auf z vorliegenden Informa- 
tionsstand in eine (objektive) probabilistische Repräsentation (im Sinne 
der Degree-of-Belief-Interpretation von Wahrscheinlichkeit) zu überführen, 
erfolgen. Gemäß der Struktur des lokalen Bayes’schen Modells kann dabei 
letztlich zum einen Information I berücksichtigt werden, welche sich darauf 
bezieht, wie die Wahrscheinlichkeitsmasse zwischen U und U aufgeteilt ist. 
Zum anderem kann bezüglich U, d.h. für z € U, auch detailliertere Informa- 
tion I im Hinblick auf den „wahren“ Wert der durch z verkörperten Größen 
des Interesses eingebracht werden. Um das in Abschnitt 3.5.1 detaillierter 
behandelte Prinzip der Maximalen Entropie möglichst effizient anzuwenden, 
kann man dazu wie folgt in zwei Schritten vorgehen: Mittels Anwendung 
des Prinzips der Maximalen Entropie und unter Berücksichtigung des in 
Form von I vorliegenden Informationsstands wird die Maximum-Entropie- 
Verteilung über der Partition {U,Ü} von Z bestimmt. Hieraus resultieren 
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dann gerade die Werte von P(U) und P(Ü) = 1 — P(U). Weiter wird das 
Prinzip der Maximalen Entropie angewandt, um den in Form von I vorliegen- 
den Informationsstand in eine (wie in Abschnitt 5.2.3) auf U eingeschränkte 
Maximum-Entropie-Verteilung zu überführen. Anschließend wird anhand 
der gemäß Gleichung (5.9) geltenden Beziehung p(z) = P(U)p(z|U) für 
z € U der benötigte Ausschnitt der (globalen) A-Priori-Verteilung p(z) für 
z € U berechnet. 


Zur Durchführung der lokalen Bayes’schen Fusion gemäß Satz 5.3 (auf Basis 
der in Gleichung (5.27) und Gleichung (5.28) angegebenen Proportionalitäts- 
beziehungen) könnte man dabei auch alternativ für z € U statt p(z) direkt 
p(z|U) und (gleichzeitig) statt P(Ū) die Größe P(U)/P(U) in die Fusion ein- 
bringen. 


Die Sinnhaftigkeit der zuvor beschriebenen Vorgehensweise hinsichtlich der 
Anwendung des Prinzips der Maximalen Entropie ergibt sich aus der nachfol- 
genden Proposition: 


Proposition 5.4. Es bezeichne p.(x) die Wahrscheinlichkeitsverteilung über 
der Partition X :={U,U} von Z, welche U gerade die Wahrscheinlichkeit P(U) 
zuweist. Dann gilt 


H[pc(x)] + PU) Hl p(Z|)] 


= — P(U) log PU) — f p(z)log p(z) dz . (5.37) 
U 


Beweis. Unter Berücksichtigung von Gleichung (5.9) ergibt sich 


H[pc(x)] + PU) H[p(Z|V)] (5.38) 
= — P(U) log P(U) — P(U) log P(U) 


— P(U) N p(z|U) log p(z|U) dz (5.39) 
U 


= — P(U) (grw) + i p(z|U)log p(z|U) az) 
U 
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— P(Ü) log P(U) (5.40) 
=-PU)( | PEU) Cog plait) +-10g P(U)) dz) 
U 
— P(U) log P(U) (5.41) 


=- | pEDPU)g PEVU) az 
U 
— P(U) log P(U) (5.42) 


=— l p(z) log p(z) dz — P(Ū) log P(U) . (5.43) 
U 


Es sei angemerkt, dass im Fall, dass die globale A-Priori-Verteilung p(z) auf 
Z eine diskrete Wahrscheinlichkeitsverteilung darstellt, die rechte Seite von 
Gleichung (5.43) gerade die Entropie einer wiederum diskreten Wahrschein- 
lichkeitsverteilung notiert, bei welcher (anders als bei der globalen A-Priori- 
Verteilung p(z)) der Anteil U von Z als atomares Ereignis betrachtet wird. 


Die Bestimmung der Likelihood-Funktion [(d|z) bezüglich z € U kann für 
das lokale Bayes’sche Modell analog wie im globalen Bayes’schen Modell er- 
folgen. Wie aus Gleichung (5.29) bzw. (5.30) erkennbar ist, ergibt sich die au- 
ßerdem für die lokale Bayes’sche Fusion benötigte Größe I(d|U) als das über 
U mit der globalen A-Priori-Verteilung p(z) gewichtete Mittel der Likelihood- 
Funktion I(d|z). Will man diese Größe anhand von Gleichung (5.29) bzw. Glei- 
chung (5.30) berechnen und nicht anderweitig herleiten, so müssen insgesamt 
gesehen Likelihood-Funktion I(d|z) und A-Priori-Verteilung p(z) wie im glo- 
balen Bayes’schen Modell also doch für alle möglichen Werte z € Z bestimmt 
werden. Da sich die in Gleichung (5.29) bzw. Gleichung (5.30) angegebene Be- 
rechnung wiederum auf ganz U (im Detail) bezieht, widerspricht diese Vor- 
gehensweise nicht zuletzt dem Wunsch, die Berechnungen auf U zu konzen- 
trieren, um so deutlich Aufwand zu sparen. 


Im Hinblick auf eine alternative direkte Bestimmung der Größe I(d|U) (ge- 
meinsam mit l(d|z) für z € U) lässt sich feststellen, dass sich dies i. A. schwie- 
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rig gestalten wird, da diese Größe letztlich nicht den intuitiven Erwartun- 
gen an ein (relatives) Maß für die Plausibilität des Werts von d unter der 
mit der Annahme z € Ü verbundenen Hypothese (vis-a-vis Hypothesen be- 
züglich anderer möglicher Werte für z) entspricht: Erweitert man die mit 
Ü korrespondierende Hypothese im Hinblick auf den „wahren“ Wert von 
z, indem man ein Ereignis A C U zu U hinzufügt, so kann, abhängig von 
den Werten der globalen A-Priori-Verteilung p(z) für z € A, die Beziehung 
I(d|Ū UA) < I(d|U) gelten. Dieser aus mathematischer Hinsicht gelten- 
de Sachverhalt dürfte es aufgrund seiner Nichtintuitivität schwierig machen, 
I(d|Ū) gemeinsam mit I(d|z) für z € U direkt anzugeben. Es sei angemerkt, 
dass diese Schwierigkeit allerdings nicht besteht, falls die globale A-Priori- 
Verteilung p(z) mindestens bezüglich U UA nichtinformativ ist, d. h. dass sie 
so beschaffen ist, dass sie keinen Wert von z € U UA favorisiert. In diesem 
Fall ergeben sich immerhin auch gewisse rechnerische Vorteile hinsichtlich 
der Berechnung von I(d|U) (vgl. auch [Liu98]). Die oben angeführte Tatsa- 
che, dass bei den Berechnungen U im Detail einbezogen werden muss, gilt 
jedoch weiterhin. 


Wie in Abschnitt 3.5.2 dargestellt wurde, lässt sich im Fall, dass die d in zu- 
sammengefassten Informationsbeiträge d,,s € {1,...,S}, als bedingt unab- 
hängig gegeben z angesehen werden können, ein sequentielles Bayes’sches 
Fusionsschema realisieren (vgl. Gleichung (3.24) und Gleichung (3.25)). Wie 
nachfolgend anhand eines Zahlenbeispiels aufgezeigt werden wird, impliziert 
die Annahme der bedingten Unabhängigkeit der Informationsbeiträge gege- 
ben z, d.h. 


S 
ptdlz)=]] pdd, zez, (5.44) 


s=1 


nicht, dass auch ein entsprechend sequentielles Fusionsschema im lokalen 
Bayes’schen Modell, in welchem Ü kumuliert betrachtet wird, realisiert wer- 
den kann. Zwar impliziert Gleichung (5.44) direkt, dass insbesondere 


S 
pd|z)=|][pG|lz), zeU (5.45) 
s=1 
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gilt. Allerdings folgt daraus nicht die Gültigkeit der im lokalen Bayes’schen 
Modell weiterhin benötigten Beziehung 


S 
p(d|Ū) = | | p(d,|0) (5.46) 


s=1 
mit p(d|Ü) gemäß Gleichung (5.29) und (in analoger Weise) 


p(ds|U) = ZEIT. s € {1, S}. (5.47) 
Dies bedeutet, dass im lokalen Bayes’schen Modell, in dem U kumuliert be- 
trachtet wird, die in d zusammengefassten Informationsbeiträge nur noch 
kontext-spezifisch bedingt unabhängig sind. Es sei angemerkt, dass die The- 
matik der kontextspezifischen Unabhängigkeit wiederum für das (anders ge- 
lagerte) Anwendungsgebiet Bayes’sche Netze auch ausführlich in [Bou96] 


adressiert wird. 


Zur Verdeutlichung der beschriebenen Problematik im Hinblick auf den teil- 
weisen Verlust der bedingten Unabhängigkeit im lokalen Bayes’schen Modell 
sei nun wie bereits angekündigt ein konkretes Zahlenbeispiel betrachtet: Es 
gelten = 1 und Z = {v,,%,73}. Die A-Priori-Verteilung sei gegeben durch 
p(y) = 1/3 für alle i € {1,2,3}. Weiter gelte s = 2, d.h. es seien zwei Infor- 
mationsbeiträge dı und d, gegeben, so dass d = (d},d,) gilt. Setzt man 


p(d, ,d,|vı) = 0,2025 Pi p(d, ,d,|%) = 0,045 Pi P(d,d4|v3) = 0,045 Pi 

p(dılv)=0,45, pldıln)=0,45, pldıly)=0,1, 

pdam) = 0,45, p(d|%)=0,1, p(d,|r»3) = 0,45, (5.48) 
so ist die Annahme der bedingten Unabhängigkeit gemäß Gleichung (5.44) 
erfüllt. Es macht im globalen Bayes’schen Modell also keinen Unterschied, ob 


die Informationsbeiträge in einem Schritt gemäß der Regel 


p@;ldı,d;) x p(dı,da|v)p WW), i € {1,2,3}, (5.49) 
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oder sequentiell in zwei Schritten gemäß der Regel 


p@ildı,d2) x pldılu)p(d.lv)pW), i € {1,2,3}, (5.50) 
fusioniert werden. In beiden Fällen ergibt sich für die A-Posteriori-Verteilung 


P(%|d1,d2) © 0,6923, pv |dı,d2) % 0,1538 , 
p(vldı.d,) © 0,1538 . (5.51) 


Weiter sei im vorliegenden Beispiel exemplarisch U = {vı} gewählt. Man 
verifiziert leicht, dass in diesem Fall dann zwar die in Gleichung (5.45) for- 
mulierte Bedingung für z € U trivialerweise erfüllt ist, nicht jedoch die in 
Gleichung (5.46) formulierte Bedingung im Hinblick auf U. Die bedingte Un- 
abhängigkeit der Informationsbeiträge im globalen Bayes’schen Modell hat 
sich also zu einer kontextspezifischen bedingten Unabhängigkeit reduziert. 
Die Durchführung der Fusion in einem Fusionsschritt liefert die korrekte lo- 
kale A-Posteriori-Verteilung, welche wie folgt gegeben ist: 


P(Y|d;,dz) % 0,6923, P(U|d,,d,) % 0,3077 (5.52) 


mit U = {1,13}. Die Anwendung eines sequentiellen Fusionsschemas, in- 
nerhalb dessen zuerst dı und dann d, berücksichtigt wird, liefert in diesem 
Beispiel dagegen ein deutlich anderes (falsches) Ergebnis für die lokale A- 
Posteriori-Verteilung. In diesem Fall ergibt sich nämlich (fälschlicherweise) 


p@ıldı.d>) % 0,5724, P(UÜldı,d>) ~ 0,4276 (5.53) 


mit U = {V,,V3}. 


5.2.4.4 Fazit 


Bei Umsetzung des Gedankens, dass die Bayes’sche Fusion nicht global über 
ganz Z, sondern konzentriert auf einen lokalen Kontext U C Z erfolgen 
soll, durch Ausgestaltung des lokalen Bayes’schen Modells dahingehend, dass 
im Hinblick auf U eine genaue Fusion erfolgt, der Anteil U dagegen nur 
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kumuliert betrachtet wird, sind die lokal definierten Wahrscheinlichkeiten 
(a priori und a posteriori) identisch zu denen im globalen Bayes’schen Mo- 
dell. Die Bestimmung der zur Beschreibung des a priori verfügbaren Infor- 
mationsstands benötigten Größen p(z) für ze U und P(U) lässt sich recht 
praktikabel durchführen. Dasselbe gilt für die Bestimmung der Likelihood- 
Funktion l(d|z) für z € U. Schwierig gestaltet sich dagegen die Bestimmung 
von I(d|Ü). Eine exakte Berechnung anhand der in diese Größe eingehenden, 
im globalen Bayes’schen Modell vorhandenen Größen ist aufwändig, da das 
Komplement U des lokalen Kontexts U hierzu doch im Detail berücksichtigt 
werden muss. Eine direkte Bestimmung von I(d|U) (zusammen mit I(d|z) für 
z € U) gestaltet sich i. A. ebenso schwierig, hier vor allem, weil sich I(d|U) 
nicht so verhält, wie man es intuitiv erwarten würde. 


Beim Übergang vom globalen Bayes’schen Modell zum lokalen Bayes’schen 
Modell reduziert sich eine bedingte Unabhängigkeit der Informationsbeiträge 
i. A. zu einer kontextspezifischen bedingten Unabhängigkeit. Dies bedeutet, 
dass mindestens im Hinblick auf U die Anwendung eines sequentiellen Fusi- 
onsschemas i. A. nicht möglich ist. Die Vorteile, welche sich beim Vorliegen 
heterogener Informationsbeiträge in diesem Sinne oftmals durch die Recht- 
fertigbarkeit einer bedingten Unabhängigkeitsnahme ergeben, gehen also i. A. 
verloren. 


5.2.5 Zusammenfassende Betrachtung 


In Abb. 5.4 sind die beiden in Abschnitt 5.2.3 und Abschnitt 5.2.4 eingeführten 
Ansätze, Lokalität im Hinblick auf einen lokalen Kontext U C Z probabilis- 
tisch zu modellieren, in illustrativer Weise einander gegenübergestellt. Das 
Ziel der Darstellung ist es, noch einmal anhand eines Beispiels aufzuzeigen, 
welche Informationsstände im Hinblick auf den „wahren“ Wert der Größen 
des Interesses im resultierenden lokalen Bayes’schen Modell jeweils (a priori 
und a posteriori) noch erlangt werden können und wodurch die entsprechen- 
den Wahrscheinlichkeiten festgelegt sind. 
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Abbildung 5.4: Beispiel zwecks Vergleich der beiden eingeführten Ansätze, Lokalität im Hin- 
blick auf einen lokalen Kontext U C Z probabilistisch zu modellieren. 


Wie durch die farbigen Quadrate illustriert wird, wird im in Abb. 5.4 darge- 
stellten Beispiel angenommen, dass Z aus vier (diskreten) Elementen besteht 
und dass der lokale Kontext U zwei dieser Elemente umfasst. Weiter wird an- 
genommen, dass Z = P(Z) gilt. Im globalen Bayes’ schen Modell sind dann die 
Wahrscheinlichkeiten sämtlicher, in Abschnitt (I) von Abb. 5.4 dargestellten 
Mengen A € P(Z) definiert und berechenbar. Sie sind a priori und a pos- 
teriori eindeutig festgelegt durch die entsprechende (jeweilige) Wahrschein- 
lichkeitsverteilung über den |Z| Elementarereignissen, welche in Abschnitt (I) 
von Abb. 5.4 grau hinterlegt sind. 


Bildet man das lokale Bayes’sche Modell wie in Abschnitt 5.2.3 auf Basis der 
Annahme dass z € U sicher gilt, so sind nur noch die Wahrscheinlichkeiten 
der in Abschnitt (II) von Abb. 5.4 illustrierten Elemente von P(Z)jy definiert. 
D. h. es kann nur Information im Hinblick auf diese lokal erlangt werden. Die 
global vorhandenen Anteile von Z, welche sich auf U beziehen, werden im 
lokalen Bayes’schen Modell vollstandig ignoriert, wodurch es dann zu der in 
Abschnitt 5.2.3.3 beschriebenen Uberbewertung der Degree-of-Beliefs der lo- 
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kal vorhandenen Ereignisse kommt. Die lokalen Wahrscheinlichkeiten dieser 
Ereignisse sind a priori und a posteriori eindeutig festgelegt durch die ent- 
sprechende (jeweilige) lokale Wahrscheinlichkeitsverteilung über den lokal 
nun nur noch |U| Elementarereignissen, welche in Abschnitt (II) von Abb. 5.4 
wiederum grau hinterlegt sind. 


Bildet man das lokale Bayes’sche Modell dagegen wie in Abschnitt 5.2.4, in- 
dem man den lokalen Kontext U weiterhin detailliert adressiert, sein Komple- 
ment U aber nur kumuliert behandelt, so sind lokal die Wahrscheinlichkei- 
ten von mehr Ereignissen definiert. Dieser Sachverhalt ist in Abschnitt (I) 
von Abb. 5.4 illustriert. Jedes dieser in o(P(Z)v,0) enthaltenen Ereignisse 
zeichnet sich gerade dadurch aus, dass es U entweder nicht oder vollständig 
enthält. Da dadurch die Anteile von Z, welche sich auf U beziehen, weiterhin 
als existent angenommen werden, kommt es hier zu keiner Überbewertung 
der Degree-of-Beliefs der lokal vorhandenen Ereignisse. Die lokalen Wahr- 
scheinlichkeiten dieser Ereignisse sind a priori und a posteriori eindeutig fest- 
gelegt durch die entsprechende (jeweilige) lokale Wahrscheinlichkeitsvertei- 
lung über den nun |U|+1 Elementarereignissen, welche in Abschnitt (III) von 
Abb. 5.4 wiederum grau hinterlegt sind. 


Betrachtet man wie in Abb. 5.4 die beiden unterschiedlichen Möglichkeiten, 
Lokalität zu definieren, rein vom Standpunkt aus, welche Informationsstände 
im Hinblick auf den „wahren“ Wert von Z probabilistisch repräsentiert werden 
können (und damit verbunden auch die Frage, inwieweit die lokal berechne- 
ten Wahrscheinlichkeiten den globalen entsprechen) und welcher Aufwand 
im Hinblick auf die Berechnung der lokalen A-Posteriori-Verteilung nötig ist, 
so ergibt sich, dass der in Abschnitt 5.2.4 eingeführte Ansatz, Lokalität durch 
Vergröberung des globalen Bayes’schen Modells zu beschreiben, klar dem in 
Abschnitt 5.2.3 eingeführten Ansatz, bei welchem das globale Bayes’sche Mo- 
dell komplett auf den lokalen Kontext U eingeschränkt wird, vorzuziehen ist. 
Man gewinnt deutlich mehr Aussagekraft im Hinblick auf die globale Situa- 
tion, indem man Wahrscheinlichkeitsverteilungen berechnet, welche im ent- 
sprechenden lokalen Bayes’schen Modell durch |U| + 1 statt |U| Elementar- 
ereignisse festgelegt sind. 
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Im Hinblick auf die Zielsetzung, einen möglichst breit anwendbaren Ansatz 
zur Modellierung von Lokalität insbesondere auch für die Fusion heterogener 
Informationsquellen umzusetzen, sind allerdings die in Abschnitt 5.2.4.3 er- 
mittelten Schwierigkeiten im Hinblick auf die Konstitution der entsprechen- 
den lokalen Bayes’schen Modelle (Schwierigkeiten bezüglich der Bildung von 
I(d|U), teilweiser Verlust bedingter Unabhängigkeit) gravierender anzusehen 
als die in Abschnitt 5.2.3.3 ermittelten (Verzerrung lokal berechneter Wahr- 
scheinlichkeitsaussagen). Voraussetzung für die Gültigkeit dieser Aussage ist 
dabei, dass Prinzipien und Methoden bereitstehen müssen, auf deren Basis 
man den lokalen Kontext U tatsächlich geeignet festlegen und möglichst auch 
ohne vollständige Kenntnis des globalen Bayes’schen Modells wenigstens in 
einem Mindestmaß hinsichtlich seiner Adäquatheit bewerten kann. Auch wä- 
re es wünschenswert, die lokal berechneten Ergebnisse explizit in den umfas- 
senderen globalen Bezug setzen zu können. Diese beiden Aspekte werden in 
Kapitel 6 und Kapitel 7 ausführlich adressiert. 


Eine rudimentärere, aber (von der zugrundeliegenden Idee her) manchmal 
praxistaugliche mögliche Vorgehensweise diesbezüglich wird außerdem auch 
bereits zuvor in dem in Abschnitt 5.3 vorgestellten Beispiel umgesetzt wer- 
den. In dem in Abschnitt 5.3 vorgestellten Beispiel wird dabei auch eine rein 
qualitative, in Teilen heuristische Analyse auf Basis des Ansatzes, Lokalität 
durch Einschränkung zu modellieren, vorgenommen werden. Dazu werden 
statt normierten nur unnormierte Wahrscheinlichkeitsverteilungen geeignet 
modelliert und weiterentwickelt. Wie anhand des Beispiels erkennbar werden 
wird, lassen sich bereits durch diese vereinfachte, mathematisch nicht voll- 
ständig exakte Herangehensweise an die lokale Bayes’sche Fusion Ergebnisse 
ableiten, welche (mit methodischen Einschränkungen) in der Praxis im Hin- 
blick auf die Beantwortung spezieller Teilfragestellungen hilfreich sein kön- 
nen. 


Wenngleich sich die vorliegende Arbeit nachfolgend vor allem auf den in Ab- 
schnitt 5.2.3 eingeführten Ansatz der Lokalität durch Einschränkung beziehen 
wird, so sei dennoch betont, dass zumindest für spezielle Aufgabenstellungen 
auch der in Abschnitt 5.2.4 eingeführte Ansatz der Lokalität durch Vergröbe- 
rung durchaus als vielversprechend zu erachten ist. Es wäre ein Thema für 
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Folgearbeiten, diesen gerade in Bezug auf spezielle Aufgabenstellungen der 
Informationsfusion hinsichtlich der Möglichkeiten, die mit ihm einhergehen- 
den Schwierigkeiten zu adressieren, zu untersuchen und weiterzuentwickeln. 
Im Hinblick auf an die vorliegende Arbeit anschließende Folgearbeiten wäre 
es weiter auch als zielführend anzusehen, eine Weiterentwicklung der in der 
vorliegenden Arbeit letztlich erarbeiteten Ansätze zur lokalen Bayes’schen 
Fusion vorzunehmen, indem man diese (hinsichtlich der Idee einer Konzen- 
tration auf einen lokalen Kontext U) mit dem in Abschnitt 4.2.1 behandelten 
Prinzip konjugierter Verteilungsfamilien bzw. mit den in Abschnitt 4.2.2 und 
Abschnitt 4.2.3 vorgestellten Verfahren zur Approximation der A-Posteriori- 
Verteilung bzw. von Kenngrößen derselben kombiniert. 


5.2.6 Verteilte Umsetzung 


Im vorliegenden Abschnitt soll noch auf die Frage eingegangen werden, wie 
sich die in Abschnitt 5.2.3 und Abschnitt 5.2.4 eingeführten Ansätze, Lokalität 
im Hinblick auf einen lokalen Kontext U C Z probabilistisch zu modellieren, 
ausgestalten, wenn die lokale Bayes’sche Fusion kollaborativ durch J € N 
Agenten, von denen jeder für einen Anteil UV) c Z mit U = S UV) zu- 
ständig ist, durchgeführt wird. Wie nachfolgend aufgezeigt werden wird, be- 
steht das Vorgehen dabei dann gerade darin, dass man J lokale Bayes’ sche Mo- 
delle ansetzt, welche die jeweiligen Zuständigkeitsbereiche UO), Jet. J}, 
der J Agenten widerspiegeln. Diese Modelle werden so ausgestaltet, dass sie 
insgesamt das (lokale) Fusionsergebnis liefern, welches auf Basis eines auf den 
lokalen Kontext U insgesamt bezogenen lokalen Bayes’schen Modells erreicht 
worden wäre. 


In Abb. 5.5 ist das dieser Vorgehensweise zugrundeliegende Prinzip unter Be- 
zugnahme auf den in [Sav54] eingeführten und in [Las93, Las94] erweiter- 
ten sog. Small World Formalismus illustriert. Ein globales Bayes’sches Modell 
konstituiert gemäß Abb. 5.5 eine Modellwelt, d.h. eine Small World, welche 
grob gesagt einer geeigneten Vereinfachung der realen Welt entspricht. Rea- 
le Welt und Modellwelt können sich hinsichtlich der vorhandenen Größen 
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(deren Menge, Wertebereiche und Granularität) sowie hinsichtlich deren Be- 
ziehungen untereinander (z.B. Abhängigkeitsstrukturen) unterscheiden. 


; Indiz 2 
Indiz1 > 


° Indiz 3 


Abbildung 5.5: Illustration des Prinzips verteilter lokaler Bayes’ scher Fusion unter Bezugnahme 
auf den Small World Formalismus. Siehe hierzu auch [San09c]. 


Lokale Bayes’sche Fusionsansätze zeichnen sich dadurch aus, dass die Lö- 
sung der Fusionsaufgabe wiederum geeignet auf einen Teil der Modellwelt 
beschränkt wird. Das Ziel ist es, diesen Teil so zu wählen, dass das Fusionser- 
gebnis für die lokale Welt auch aussagekräftig für die Modellwelt (und damit 
für die reale Welt) ist. Bei der verteilten Umsetzung lokaler Bayes’scher Fusi- 
on wird die lokale Welt in einzelne Agentenwelten (in der Abbildung 3 Stück, 
welche durch AW1, AW2, AW3 notiert sind) aufgespalten. Das Zusammenfü- 
gen der lokalen Fusionsergebnisse der Agentenwelten entspricht der Bestim- 
mung eines Fusionsresultats für die Modellwelt. Eine etwas ausführlichere 
Darstellung dieser Sachverhalte wurde zuvor in [San09c] veröffentlicht. 


5.2.6.1 Bei Lokalität durch Vergröberung 


Im Falle der Lokalität durch Vergröberung korrespondiert mit der probabilis- 
tischen Modellierung eines jeden der J Agenten ein Produktwahrscheinlich- 
keitsraum der Form von Gleichung (5.22), wobei beim Agenten Nummer j der 
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lokale Kontext U durch U®? ersetzt wird: 


(Z x D,o(o(2, uo 0) x D),M). (5.54) 


Der Agent Nummer j besitzt die detaillierte globale A-Priori-Verteilung p(z) 
im Hinblick auf den ihm zugewiesenen Anteil UW von Z, während er im 
Hinblick auf dessen Komplement U) = Z \ UÜ) nur die kumulierte globa- 
le A-Priori-Wahrscheinlichkeit P(U”) besitzt. Diese beiden Größen können 
dann wie in Satz 5.3 beschrieben in das finale Fusionsergebnis des Agenten 
überführt werden. Dieses ist gegeben in Form des Ausschnitts aus der globalen 
A-Posteriori-Verteilung p(z|d) für z € UY) zusammen mit der A-Posteriori- 
Wahrscheinlichkeit P(U“)|d) des Anteils von Z, für den der Agent Nummer j 
nicht zuständig ist. Man beachte, dass aufgrund der in Abschnitt 5.2.4.3 dies- 
bezüglich dargestellten Schwierigkeit die Durchführung einer sequentiellen 
Fusion durch den Agenten i. A. nicht möglich ist. 


Die resultierenden Fusionsergebnisse unterschiedlicher Agenten sind direkt 
kompatibel. D. h. sie können direkt zu einem gesamthafteren Fusionsresultat 
zusammengefügt werden. Dieses ist dann so beschaffen, dass der gesamte lo- 
kale Kontext U = Ge U) detailliert durch entsprechende, von den Agen- 
ten gelieferte Anteile der globalen A-Posteriori-Verteilung p(z|d) adressiert 
wird, wahrend das Komplement U des lokalen Kontexts U wiederum nur ku- 
muliert durch die Angabe von 


J 


P(U|d)=1- >) ji 5 p(z|d)dz (5.55) 
UU 


ja 


betrachtet wird. Gleichung (5.55) gibt gerade an, wie sich die A-Posteriori- 
Wahrscheinlichkeit P(U|d) des Komplements Ü des lokalen Kontexts U an- 
hand der von den J Agenten gelieferten (hier als disjunkt angenommenen) 
Ausschnitte der globalen A-Posteriori-Verteilung p(z|d) berechnet. 
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5.2.6.2 Bei Lokalität durch Einschränkung 


Im Falle der Lokalität durch Einschränkung korrespondiert mit der probabi- 
listischen Modellierung eines jeden der J Agenten ein Produktwahrschein- 
lichkeitsraum der Form von Gleichung (5.8), wobei beim Agenten Nummer j 
wiederum der lokale Kontext U durch UY) ersetzt wird: 


(U® x D,o(Ziy X D), ID) . (5.56) 


Der Agent Nummer j besitzt eine auf den in seine Zuständigkeit fallenden 
Anteil UY) C Z eingeschränkte lokale A-Priori-Verteilung p(z|U). Diese 
kann er wie in Satz 5.2 beschrieben in eine lokale, wiederum auf den An- 
teil UW c Z eingeschränkte A-Posteriori-Verteilung p(z|d,U\) überfüh- 
ren. Lässt sich im globalen Bayes’schen Modell die Annahme der beding- 
ten Unabhängigkeit der in d zusammengefassten Informationsbeiträge gege- 
ben z rechtfertigen, so gilt das hier auch lokal, d.h. der Agent kann die lo- 
kale Bayes’sche Fusion auch sequentiell umsetzen. Dies entspricht dann im 
Wesentlichen der im Konzept für die agentenbasierte Fusionsarchitektur be- 
schriebenen Vorgehensweise der Fusionsagenten (vgl. Abschnitt 4.3.2.2). 


Die so insgesamt resultierenden Fusionsergebnisse unterschiedlicher Agenten 
sind per se allerdings nicht kompatibel. D. h. sie können nicht direkt zu einem 
gesamthafteren Fusionsergebnis zusammengefügt werden. Diesen Sachver- 
halt kann man sich gut veranschaulichen, indem man die Beispiele in Abb. 5.2 
und Abb. 5.3 heranzieht und sich vorstellt, dass die beiden unterschiedlichen 
Teilbereiche von Z, die jeweils betrachtet werden, in die Zuständigkeit zweier 
unterschiedlicher Agenten fallen. Ein Ausweg aus dieser Problematik ergibt 
sich jedoch, wenn man vorsieht, dass den Agenten (oder je zwei von ihnen) 
jeweils ein gemeinsamer (ggf. auch sehr geringer) Anteil von Z zugewiesen 
wird, denn dann können, wie im Folgenden beschrieben wird, die Ergebnisse 
der Agenten im Hinblick auf diesen Anteil genutzt werden, um die von ihnen 
insgesamt gelieferten Ergebnisse abzugleichen. 


Es gelte j,,j. E {1,...J}, BE Ziyi 
Ausnutzung von Gleichung (5.11) die Beziehung 


) für i € {1,2}. Dann ergibt sich unter 
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P(BId,UGY) Sa pld, UIP) dz PU), 


eS SS SS ee fo ERS OA 5.57 
PELU) f pea Ud PUW urn: 657 


Agent Nummer jı kann anhand von (;, ;,) die von Agent Nummer jz berech- 
nete lokale A-Posteriori-Verteilung p(z|d, U2) in Bezug zu seiner lokalen 
A-Posteriori-Verteilung p(z|d, UY) setzen, indem er für ze UV») \ UG») 


B(z|d, UYY) := po, ja) - p(zld, UM) (5.58) 


berechnet. Das Zusammenfassen und neu normieren von Ď(z|d, UV) 
und p(z|d, UGD) liefert dann eine weiterhin lokale, nun aber nur noch 
auf den Anteil UU U UÜ2) von Z eingeschränkte A-Posteriori-Verteilung 
p(z|d, U9®Ð u UG2)). Das beschriebene Vorgehen lässt sich schrittweise 
fortführen oder ggf. auch (wenn alle Agenten das gleiche Ereignis B betrach- 
ten) in einem Schritt umsetzen, um letztlich die auf U eingeschränkte lokale 
A-Posteriori-Verteilung p(z|d,U) zu bestimmen. 


Unter der Annahme, dass der Wert der globalen A-Posteriori-Verteilung 
p(z|d) auf den mit U korrespondierenden (als nicht relevant betrachteten) 
Anteilen von Z in etwa gleich (da gering) ist, lässt sich der Faktor £(j,,j) 
weiter auch wie folgt unter Bezugnahme auf unterschiedliche Anteile von U, 
welche den gleiche Umfang besitzen, approximieren: Angenommen Agent jı 
nimmt B € 2 in seinen Zuständigkeitsbereich mit auf und Agent j, nimmt 
C € Z in seinen Zuständigkeitsbereich mit auf. Dann gilt 


P(Bld, UW) 


Die in Gleichung (5.59) angegebene Approximation lässt sich (unter der 
zugrundeliegenden Annahme) insbesondere auch berechnen, wenn die den 
Agenten zugewiesenen Anteile U1), UÜ2) gerade nicht nur die eigentlichen 
jeweiligen Auffälligkeiten in Z, sondern auch gewisse, nicht allzu große 
Umgebungen um diese umfassen, wie es beim Konzept für die agentenba- 
sierte Fusionsarchitektur bereits vorgesehen war (vgl. Abschnitt 4.3.2.1). 
Verallgemeinert man die angestellte Betrachtung wiederum auf alle J Agen- 
ten, so ergibt sich, dass sich (unter der zugrundeliegenden Annahme) so 
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letztlich eine zumindest näherungsweise korrekte Version der lokalen A- 
Posteriori-Verteilung p(z|d,U) berechnen lässt und zwar ohne dass die 
Agenten tatsächlich gleiche Anteile von Z betrachten müssen. 


5.3 Beispiel für eine qualitative Analyse 


5.3.1 Einführung 


Im vorliegenden Abschnitt wird ein möglichst anwendungsnahes Beispiel im 
Hinblick auf eine Anwendung lokaler Bayes’scher Fusion umgesetzt und un- 
tersucht. Dabei gilt es, mittels lokaler Bayes’scher Fusion unterschiedliche In- 
formationsbeiträge, wie sie in ähnlicher Weise im Bereich der Aufklärung als 
Basis für entsprechende Intelligence Produkte vorliegen können, zu fusionie- 
ren und darauf basierend aufklärungsrelevante Erkenntnisse abzuleiten. Das 
genaue Ziel besteht darin, das Vorhandensein sowie den Typ und die Positi- 
on von Fahrzeugen, welche sich innerhalb eines bestimmten geographischen 
Interessengebiets (im Englischen: Area of Interest (AOR); vgl. z.B. [Wun09]) 
befinden, festzustellen. 


Variationen der in [San10b] veröffentlichten und nachfolgend im Wesentli- 
chen wiedergegebenen Version dieses Beispiels und entsprechende Vorarbei- 
ten wurden zuvor in [Bey06b], [Bey07] und [San09c] veröffentlicht. Weitere 
Aspekte, vor allem im Hinblick auf die Anwendung unterschiedlicher Bild- 
verarbeitungsverfahren zur Auswertung und letztlich Fusion von Bildinfor- 
mation, d.h. in Form von Bilddaten vorliegenden Informationsbeiträgen, auf 
welche nachfolgend nur in begrenztem Umfang eingegangen werden kann, 
wurden auch darüber hinaus im Rahmen betreuter studentischer Arbeiten 
untersucht (siehe [Gor09, Gou08, Gou10]). Um die flexible Generierung der 
notwendigen Beispieldaten zu ermöglichen und um die Verifizierbarkeit der 
jeweils erzielten Ergebnisse sicherzustellen, wurde das geographische Inter- 
essengebiet (und die konkret in ihm vorliegende Situation) auf Basis einer 
Modelllandschaft (Maßstab 1:160) und unter Verwendung maßstabsgerechter 
Miniaturmodelle real existierender Fahrzeugtypen exemplarisch umgesetzt. 
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Bedingt durch die hohe Komplexität und auch Variabilität der im Bereich der 
Aufklärung eingesetzten Verfahren und der zugrundeliegenden, sich teilweise 
auch noch in Präzisierung befindenden operationellen Prozesse, auf welche in 
Abschnitt 2.4.3.5 ausschnittsweise eingegangen wurde, kann es die vorliegen- 
de Arbeit nicht leisten, ein vollständig realitätsgetreues Beispiel hierzu zu lie- 
fern. Die konkret vorgenommene Ausgestaltung des Beispiels zielt statt des- 
sen darauf ab, ergänzend und teilweise komplementär zu den in Abschnitt 5.2 
vorgenommenen Arbeiten ausgewählte Teilaspekte im Hinblick auf die loka- 
le Bayes’sche Fusion umzusetzen und zu untersuchen. Hinsichtlich der Aus- 
wertung der Informationsbeiträge wird dabei rein exemplarisch vor allem auf 
etablierte Verfahren und Methoden aus der Fachliteratur zurückgegriffen. 


Nachfolgend wird wie in [San10b] der Fall adressiert, dass für die Fusion ein 
Informationsbeitrag dı in Form von durch menschliche Beobachter gemel- 
deten Aufklärungsergebnissen sowie drei Informationsbeiträge dz, d3, d4 in 
Form von Luftbildern des Interessengebiets zur Verfügung stehen. Weiter wird 
davon ausgegangen, dass a priori vorliegendes Kartenmaterial, welches In- 
formation im Hinblick auf das im Interessengebiet vorhandene Straßennetz 
liefert, das in der Fusionsaufgabe verfügbare Vorwissen darstellt. 


Die drei Luftbilder korrespondieren konkret mit den in Abb. 5.6 dargestellten 
Grauwertbildern des Interessengebiets, welche von einer festen Kamerapo- 
sition als Draufsicht aufgenommen wurden. Um exemplarisch unterschied- 
liche Arten von Bildinformation zu generieren, wurde die Kamera für die 
Aufnahmen mit unterschiedlichen Spektralfiltern (vgl. z.B. [Ghe11]) ausge- 
stattet. Die mittlere Wellenlänge des Durchlassbereichs des jeweils verwen- 
deten Spektralfilters beträgt 400 nm bei d,, 550 nm bei d, und 650 nm bei d4. 
Die Bandbreite der Spektralfilter beträgt jeweils 50 nm. Die von den mensch- 
lichen Beobachtern gemeldeten Aufklärungsergebnisse, welche nachfolgend 
noch genauer beschrieben werden, sind grob gesagt in Form von Angaben 
hinsichtlich der konkret gemachten Beobachtungen im Hinblick auf im Inter- 
essengebiet vorhandene Fahrzeuge und von mit den Angaben korrespondie- 
renden Unsicherheiten gegeben. 
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(a) 400 nm. (b) 550 nm. 


(c) 650 nm. 


Abbildung 5.6: Grauwertbilder des Interessengebiets. 


Zur Lösung der Aufgabenstellung wird (wie bereits in Abschnitt 5.2.5 skiz- 
ziert) eine qualitative Analyse auf Basis lokaler Bayes’scher Fusion vorge- 
nommen. Hierfür wird ein Ausschnitt aus einer nicht normierten Version der 
A-Posteriori-Verteilung berechnet. Das zugrundeliegende globale Bayes’sche 
Modell wird so angesetzt, dass durch die Bestimmung der a posteriori signifi- 
kantesten Werte für die im Hinblick auf das konkrete Ziel der Aufklärung re- 
levanten Größen des Interesses ein Rückschluss auf Position und Typ der im 
Interessengebiet vorhandenen Fahrzeuge ermöglicht wird. Die Bestimmung 
dieser Werte (im Hinblick auf den lokal betrachteten Anteil des Wertebereichs 
der Größen des Interesses) erfolgt durch eine Auswertung der Verhältnisse 
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von A-Posteriori-Wahrscheinlichkeiten, bei welcher lokale Maxima der (nicht 
normierten) A-Posteriori-Verteilung untereinander und im Hinblick auf sie 
umgebende lokale Ausschnitte betrachtet werden. 


5.3.2 (Globale) Bayes’sche Modellierung 


Entsprechend der konkret vorliegenden Informationsbeiträge und der zu ihrer 
Auswertung eingesetzten Verfahren wird für die Durchführung der Fusion 
neben Typ und Position auch die Fahrtrichtung eines Fahrzeugs als Größe 
des Interesses im Bayes’schen Modell mit modelliert. Genauer gilt 


Z= (Zi; Z2, Z3, Z4) E Z= Zı x Zə x Z3 x Z4 . (5.60) 


Dabei gibt zı € Z, die mögliche horizontale und Zz} € Z, die mögliche ver- 
tikale Position eines Fahrzeugs im Interessengebiet an’. Weiter bezeichnet 
Z3 € Z3 den möglichen Fahrzeugtyp und z4 € Zy bezeichnet die mögliche 
Fahrtrichtung. Um das Beispiel überschaubar zu halten, wird angenommen, 
dass hinsichtlich des Fahrzeugtyps 


Z, = {A (Audi), D (DKW), F (Ford), M (Mercedes), O (Opel)} (5.61) 
und hinsichtlich der Fahrtrichtung? 
Z4 = {n (nördlich), o (östlich), s (südlich), w (westlich)} (5.62) 


gelten. Im Hinblick auf das genaue Ziel der Aufklärung korrespondiert die 
Fahrtrichtung Z, im Bayes’schen Sinne mit einem Nuisance-Parameter, wel- 
cher a posteriori aus dem Fusionsergebnis eliminiert werden kann. 


* Die horizontale Position korrespondiert mit der entsprechenden Spaltenkoordinate und die ver- 
tikale Position korrespondiert mit der entsprechenden Zeilenkoordinate eines vom Interessen- 
gebiet aufgenommenen Bildes. 

? Eine Variation des Beispiels für den Fall, dass die Fahrtrichtung einen Parameter mit Werten 
von 0 bis 359 Grad darstellt, ist grundsätzlich möglich (vgl. [Gor09, Gou10]), allerdings müssen 
dafür die eingesetzten Auswerteverfahren und die Modellbildung angepasst werden. 
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Die Informationsbeiträge d,, d3, d4 werden als bedingt unabhängig gegeben 
Z angenommen, da sich die Durchlassbereiche der zur Generierung der Bil- 
der verwendeten Spektralfilter nicht überlappen'. Aufgrund der heterogenen 
Natur der zugrundeliegenden Quellen kann insbesondere auch dı gegenüber 
dz, d3, d4 als bedingt unabhängig gegeben z angenommen werden. 


Die A-Priori-Verteilung p(z), welche das in Form der Straßenkarte vorliegen- 
de Vorwissen unter Berücksichtigung einer Messunsicherheit oy, für jeden 
Punkt der Straßenkarte repräsentiert, kann unter Bezugnahme auf das Prinzip 
der Maximalen Entropie (vgl. Abschnitt 3.5.1) für (Z1,22) € Z1XZ, näherungs- 
weise als proportional zur Faltung der Gleichverteilung U(Y) auf 


Y:={y=(y1»)|y € Z, XZ, und y ist laut Karte Teil einer Straße} (5.63) 


mit der (zweidimensionalen) Normalverteilung N ((0,0)", ogy I2) gesetzt wer- 
den (vgl. [Bey07]). Dabei bezeichnet I, die zweidimensionale Einheitsmatrix. 
D.h. es gilt 


P(Z1,22) X Quu(Z1>22) * * Qav(Z1>22) (5.64) 


wobei quu(Z1,22) gemäß N ((0,0)", oy I2) und gav(Z1,22) gemäß U(Y) ver- 
teilt sind. Da kein Vorwissen in Bezug auf den Fahrzeugtyp und die Fahrt- 
richtung vorliegt, muss die A-Priori-Verteilung p(z) weiter nichtinformativ 
im Hinblick auf z; und z4 sein. Dementsprechend wird festgelegt: 


p(z) = P(Z1,22,23,24) x p(Z1,Z2) . (5.65) 


Die so resultierende A-Priori-Verteilung p(z) ist in Abb. 5.7a in nicht nor- 
mierter Version visualisiert. Die Darstellung erfolgt dabei anhand eines Grau- 
wertbilds mit Abmessungen gemäß Zı X Z2. Je höher der Intensitätswert des 
Grauwertbilds an einer bestimmten Position (Z,,Z,) ausfällt, desto höher ist 


* Diese Annahme wird faktisch nur näherungsweise gelten, allein schon da dieselbe Kamera zur 
Aufnahme der Bilder verwendet wurde, was zu systematischen Einflüssen führen kann. Weiter 
ist davon auszugehen, dass das Sensorrauschen nicht unabhängig ist. Vgl. hierzu auch [Ghe08a]. 
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(der für alle möglichen Typen z, gemäß Z, und für alle möglichen Fahrtrich- 
tungen Z4 gemäß Z, gleiche) Wert der A-Priori-Verteilung p(z). 


21 
FE EEG 
Z1 
Z2 
Z2 
Z3 


(a) Nicht normierte Version der (b) Likelihood-Funktion für den Informationsbeitrag 
A-Priori-Verteilung. dı. Die Grauwertbilder sind so angeordnet, dass 
sie von vorne nach hinten mit den möglichen 
Fahrzeugtypen A, D, F, M und O 
korrespondieren. 


Abbildung 5.7: A-Priori-Verteilung p(z) « p(Z1,Z2) und Likelihood-Funktion I(d,|Z). 


Der Informationsbeitrag d4, welcher die von den menschlichen Beobachtern 
gelieferte Information verkörpert, ist wie folgt als Zusammenstellung von 
Fakten und mit diesen korrespondierenden Unsicherheiten beschrieben: 


dy = (OR) |k et... KY} (5.66) 


Dabei bezeichnet K € N die Gesamtzahl der gemeldeten Fahrzeuge. Es ist 
(a(k), u(k)) die gemeldete Position des k-ten gemeldeten Fahrzeugs und 
Ou(k) ist die mit dieser Positionsangabe korrespondierende räumliche Un- 
sicherheit. Weiter notiert %;(k) die für das k-te gemeldete Fahrzeug zusätz- 
lich gemeldete Fahrtrichtung. Dabei wird angenommen, dass ausschließlich 
gemeldet wird, ob sich das jeweilige Fahrzeug in horizontaler (d.h. östlicher 
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oder westlicher) oder vertikaler (d. h. nördlicher oder südlicher) Fahrtrichtung 
fortbewegt. Es gilt also 


i(k) E€ Re :={oVw,nVs}. (5.67) 


Weiter bezeichnet t(k) den Grad des Dafürhaltens des Beobachters dafür, dass 
das k-te gemeldete Fahrzeug von einem bestimmten Typ ist. Genauer gilt 


t(k) = {q1(23;k)|z3 € Z3} (5.68) 


wobei qr(z3; k) eine Degree-of-Belief-Verteilung über der Menge der mögli- 
chen Fahrzeugtypen Z; darstellt. Beschränkt sich die Angabe des Beobachters 
darauf, dass er nur für bestimmte Typen aus Z; einen konkreten Degree-of- 
Belief-Wert angibt, so wird die restliche Wahrscheinlichkeitsmasse (konsis- 
tent zum Prinzip der Maximalen Entropie) als gleichverteilt auf die bei der 
Angabe nicht genannten Fahrzeugtypen angenommen. 


Die in Form von d, vorliegende Information wird wie folgt auf Basis von Mix- 
turen von Normalverteilungen als Likelihood-Funktion I(d,|z) modelliert: 


K 


I(d,|z) = I(dı|z1,22,23,24) = >> gr(Z3; K) gp(Z1,22) . (5.69) 
k=1 


Dabei wird für qp(Z1,Z2) die N((u(k),u2(k))!, o„(k)? I,) Verteilung über der 
Menge der möglichen Fahrzeugpositionen angesetzt. Diese wird dementspre- 
chend für (21,25) € Zı X Z, ausgewertet. Da der menschliche Beobachter 
keine explizite Angabe macht, wie sicher er sich jeweils hinsichtlich der ge- 
meldeten Fahrtrichtung %;(k) ist, wird die Likelihood-Funktion I(d} |Z) verein- 
fachend als nichtinformativ im Hinblick auf die Fahrtrichtung z4 modelliert. 


Die resultierende Likelihood-Funktion I(d, |z) ist in Abb. 5.7b visualisiert. Sie 
stellt für jeden in Z3 enthaltenen möglichen Fahrzeugtyp z3 eine Funktion 
über der Menge Zı X Z, der möglichen Fahrzeugpositionen dar. Die Darstel- 
lung der entsprechenden (hier) fünf Funktionen erfolgt in Abb. 5.7b anhand 
von fünf Grauwertbildern mit Abmessungen gemäß Z, X Z2. Je höher der 
Intensitätswert des mit einem möglichen Typ Zz korrespondierenden Grau- 
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wertbilds an einer bestimmten Position (z],2,) ausfällt, desto höher ist der 
entsprechende (für jede mögliche Fahrtrichtung z, aus Z4 gleiche) Wert der 
Likelihood-Funktion I(dı |z). 


Zur Gewinnung der Likelihood-Funktionen I[(d;|z), s € {2,3,4}, wird im 
Beispiel eine an die möglichen Typen gemäß Z; angepasste Matched-Filter 
Bank, welche Grauwertbilder der möglichen Typen als Templates enthält, 
verwendet. Die Templates korrespondieren im Beispiel mit Grauwertbildern, 
welche ohne den Einsatz der Spektralfilter gewonnen wurden. Das Template 
Matching wird auf Gradientenbildern, welche aus d,, d;, d4 und den Tem- 
plates durch Anwendung des Sobel-Operators (vgl. z.B. [Bey12]) gewonnen 
wurden, angewandt und basiert auf der Auswertung der normalisierten 
Kreuzkorrelation (vgl. z.B. [Asc93], [Bur08] oder [Mar95]). 


Zi 


— 


Abbildung 5.8: Likelihood-Funktion l(d2|Z) für festen Fahrzeugtyp Z3 = A und feste Fahrt- 
richtung Z4 = s als Funktion von (Z1,Z2). 
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Die Likelihood-Funktionen I(d,|z), s € {2,3,4}, ergeben sich gemäß dieser 
Umsetzung des Beispiels also durch eine Auswertung der einzelnen mögli- 
chen Werte für z € Z und sind nicht durch eine überschaubare Anzahl an Pa- 
rametern in geschlossener Form beschreibbar. In Abb. 5.8 ist die Likelihood- 
Funktion l(d,|z) in Bezug auf den Fahrzeugtyp Z3 = A und die Fahrtrich- 
tung Z4 = s als Funktion über der Menge Zı X Z, der möglichen Positionen 
als Grauwertbild visualisiert. Je höher der Intensitätswert des Grauwertbilds 
an einer bestimmten Position (Z],2,) ausfällt, desto höher ist der Wert von 
I(d5|Z1,22,A,S). 


Wird die Bayes’sche Fusion global bezüglich ganz Z durchgeführt, so müssen 
die Ergebnisse der Auswertung von Gleichung (5.64) für alle möglichen Werte 
(21,22) E ZıxZ, und die Ergebnisse der Auswertung von Gleichung (5.69) für 
alle möglichen Werte (Z1,23,23) € Z1 X Z2 X Z3 bereitgestellt werden. Weiter 
ist das Ergebnis des Template Matching in Bezug auf jeden der Informati- 
onsbeiträge dz, d; und d4 jeweils für jeden möglichen Wert (Z,,22,23,Z4) € 
Zı X Z3 X Z3 X Z4 zu berechnen und bereitzustellen. Erfolgt dies, z. B. bei Um- 
setzung der Bayes’schen Fusion innerhalb eines großen Netzwerks mit spezia- 
lisierten Auswerteeinheiten, nicht an der Stelle, an der auch die Berechnung 
und weitere Analyse des eigentlichen Fusionsergebnisses stattfindet, so müs- 
sen diese Größen dann auch entsprechend komplett übermittelt werden, was 
gerade bei weit verteilten Systemen und/oder vorliegenden Bandbreitenbe- 
schränkungen kritisch sein kann. Auch werden hinsichtlich ihrer Kapazitäten 
begrenzte Auswerteeinheiten möglicherweise zu umfangreich in Anspruch 
genommen. Vgl. hierzu insbesondere auch Abschnitt 4.3.2.3. 


Anhand der vorgenannten Größen muss dann eine nicht normierte Version 
der A-Posteriori-Verteilung für jeden möglichen Wert (Z1,25,23,24) € Z (in 
einem Schritt oder wie in Gleichung (3.25) dargestellt sequentiell) berechnet 
werden: 


4 
P(Z1,22,23,Z4|dı,d2,d3,d4) & P(Z1,22,23,24) II I(ds|Z1,22,23,Z4) . (5.70) 


s=1 
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Anschließend müssen die signifikantesten Werte für (z1,2,,23) auf Basis der 
so resultierenden (nicht normierten) Version der A-Posteriori-Verteilung er- 
mittelt werden. 


Im konkret vorliegenden Beispiel wird entsprechend den in Form der Infor- 
mationsbeiträge dz, d; und d4 zur Auswertung vorliegenden Bilddaten, wel- 
che (gemäß Annahme) gerade das Interessengebiet abdecken und jeweils die 
Abmessungen 1280 Pixel x 960 Pixel haben, exemplarisch davon ausgegan- 
gen, dass ungefähr’ |Z,| = 1280 und |Z2| = 960 gelten. Bereits für den hier 
weiter exemplarisch angenommenen Fall |Z3| = 5 und |Z4| = 4 ergibt sich so- 
mit, dass rein zur Berechnung der nicht normierten Version der A-Posteriori- 
Verteilung gemäß Gleichung (5.70) |Z| = IH. |Z,| > 2-107 mögliche Werte 
für Z ausgewertet werden müssen. 


5.3.3 Lokale Bayes’sche Fusion 


Der erste Schritt im Hinblick auf die Umsetzung der lokalen Bayes’schen Fu- 
sion besteht in der Bestimmung des lokalen Kontexts U. Hierfür müssen die 
für die Fusion vorliegenden Informationsbeiträge bestmöglich, aber noch mit 
in der Praxis vertretbarem Aufwand hinsichtlich möglicher Auffälligkeiten in 
Z ausgewertet werden (vgl. Abschnitt 4.3.2.1), um den lokalen Kontext U auf 
dieser Basis konstituieren zu können. 


Eine im Hinblick auf die (globale) Bayes’sche Modellierung gemäß Ab- 
schnitt 5.3.2 theoretisch gesehen optimale Vorauswertung der in Form von 
d2, dz, d4 vorliegenden Bilddaten lässt sich durch die Anwendung des zur 
Berechnung der Likelihood-Funktionen I(d,|z), s € {2,3,4}, verwendeten 
Template Matching Verfahrens erzielen. Die prinzipielle Machbarkeit dieses 
Vorgehens wurde u.a. in [Bey07] anhand der dort konkret adressierten 
Version des Beispiels aufgezeigt. 


* Da beim Template Matching Verfahren die Bildränder jeweils bis zur halben Template-Größe 
nicht exakt ausgewertet werden können, sollten |Z]| und |Z2| genau genommen minimal ge- 
ringer angesetzt werden. 
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Um zu vermeiden, dass die exakten, auf dem Template Matching Verfahren 
basierenden Likelihood-Funktionen I(d,|z), s € {2,3,4}, jeweils für alle mög- 
lichen Werte aus Z berechnet werden müssen, was nicht tragbar sein könnte, 
kann wie in [San09c] und [San10b] aufgezeigt im vorliegenden exemplari- 
schen Anwendungsfall alternativ wie folgt vorgegangen werden: Die Gradi- 
entenbilder, welche aus d,, dz und d4 durch Anwendung des Sobel-Operators 
gewonnen werden, werden nach dem Vorhandensein horizontal und vertikal 
ausgerichteter Kantenpaare, deren Abmessung und Anordnung in etwa den 
seitlichen Außenmaßen eines Fahrzeugs im Bild entspricht, abgesucht. Dabei 
wird von der durchschnittlichen Länge und Breite eines Fahrzeugs ausgegan- 
gen und es werden weiter gewisse Variationen hinsichtlich Fahrzeug-Länge, 
Fahrzeug-Breite und Kanten-Offset berücksichtigt (vgl. [San09c] zu Details). 
Das Ergebnis stellen dann J € N mögliche Kantenpaare dar. 


Die Mittelpunkte mj, j € {1,...,J}, der rechteckigen Strukturen, welche mit 
den aufgefundenen Kantenpaaren korrespondieren, werden dann als mögli- 
che Fahrzeugpositionen erfasst. Um real zu erwartenden Abweichungen zwi- 
schen den so ermittelten Mittelpunkten und den tatsächlichen Mittelpunkten 
der Fahrzeuge Rechnung zu tragen, werden weiter auch kleine, um die Punkte 
mj gelagerte räumliche Umgebungen ul x ul Ic Zı XZ, als mögliche Fahr- 
zeugpositionen erfasst. Diese Umgebungen konstituieren dann Ausschnitte 
aus Z, welche von folgender Form sind: 


UO =u xu xz xUP oz, je{,..,J}, (5.71) 


d.h. sie schränken jeweils die Menge Z; X Z, der möglichen Fahrzeugpo- 
sitionen und die Menge der möglichen Fahrtrichtungen Z4 ein. Dabei gilt 
ul = {n, s}, falls das zugehörige j-te Kantenpaar vertikal ausgerichtet ist, 
und ul = {o, w}, falls es horizontal ausgerichtet ist. 


Der beschriebene Ansatz zur Vorauswertung der in Form von d,, d; und 
d4 als Bilddaten vorliegenden Informationsbeiträge lässt sich anhand von 
in [Zha01] veröffentlichten Ergebnissen zu psychologischen Tests, in denen 
wichtige Merkmale, anhand deren Menschen Autos in Bildern erkennen, 
identifiziert wurden, motivieren. Die Ursache dafür, dass er sich trotz seiner 
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Einfachheit im konkret vorliegenden Beispiel recht gut zur Vorauswertung 
der Bilddaten eignet, gründet sich dabei natürlich vor allem auch auf die Tat- 
sache, dass es im Hinblick auf die Korrektheit von mittels lokaler Bayes’scher 
Fusion erzielten Ergebnissen genügt, dass die Vorauswertung so gestaltet ist, 
dass der lokale Kontext U insgesamt gesehen mindestens die tatsächlich rele- 
vanten Auffälligkeiten enthält. Vgl. hierzu insbesondere auch die Evaluation 
und Diskussion der Ergebnisse im nachfolgenden Abschnitt 5.3.4. 


Im Hinblick auf den Informationsbeitrag dı, welcher die von den menschli- 
chen Beobachtern gelieferte Information verkörpert, können mögliche Auf- 
fälligkeiten in Z direkt auf Basis von Gleichung (5.66) festgelegt werden. Hin- 
sichtlich der tatsächlichen Positionen der K gemeldeten Fahrzeuge kann da- 
von ausgegangen werden, dass diese (sofern die Fahrzeuge tatsächlich vor- 
handen sind) mit hoher Wahrscheinlichkeit innerhalb von räumlichen Regio- 
nen um die gemeldeten Positionen (p(k), u2(k)), k € {1,...,K}, liegen. Die 
Größe der räumlichen Regionen lässt sich dabei anhand der für die Positions- 
angaben jeweils bekannten räumlichen Unsicherheiten o,(k) festlegen. Die 
Annahme, dass der menschliche Beobachter recht zuverlässig meldet, ob sich 
ein Fahrzeug in horizontaler oder vertikaler Fahrtrichtung bewegt, führt da- 
mit dann letztlich auf (hier exemplarisch bezüglich der Menge der möglichen 
Positionen als quadratisch angesetzte) Ausschnitte von Z der folgenden Form: 


UO =U xu xz xUP cZ, jef{J+L..,J+K, (5.72) 
mit 


UP xUP = (2,2) MUÜ-N-UN < z < MJD +01 € {1,2} 
(5.73) 


und ui) = {n, s}, falls 4; j-—J) = nvs, und u = {o, w}, falls 4(j-—J) = ovw 
gilt. Konkret wird fiir die nachfolgenden Berechnungen angenommen, dass 
für alle j € {J+1,...,J+K} gerade o(j—J) = 0,(j-J) = 0,1-|Z,| gilt. Sofern 
die gemäß Gleichung (5.68) gemeldete Einschätzung t(k) hinsichtlich des Typs 
des k-ten gemeldeten Fahrzeugs besonders signifikante Werte aufweist, lässt 
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sich die in Gleichung (5.72) getroffene Festlegung für den entsprechenden 
J + k-ten Ausschnitt aus Z noch weiter verfeinern, indem man Z, durch die 
Teilmenge der entsprechend signifikanten Fahrzeugtypen ersetzt. Diese Maß- 
nahme wurde im vorliegenden Beispiel der Übersichtlichkeit halber nicht vor- 
gesehen. Es sei jedoch betont, dass sich gerade beim Vorliegen einer umfang- 
reicheren Menge an möglichen Fahrzeugtypen Z; als im vorliegenden Beispiel 
der Fall hierdurch wesentliches Potential zur weiteren, auch deutlichen Ver- 
kleinerung der entsprechenden Ausschnitte ud), JEU +1,...,J + K}, von 
Z ergibt. 


Insgesamt ergibt sich der lokale Kontext U zu 


J+K 
u=|)Ju®. (5.74) 
ja 


Zur Durchführung der lokalen Bayes’schen Fusion auf Basis einer Einschrän- 
kung auf U genügt es nun grundsätzlich, die (nicht normierte) A-Priori- 
Verteilung p(z) gemäß Gleichung (5.64) und die Likelihood-Funktion I(d} |z) 
gemäß Gleichung (5.69) nur ausschnittsweise für z € U bereitzustellen. 
Ebenso muss bezüglich der Likelihood-Funktionen I(d,|z), s € {2,3,4}, 
das Ergebnis des Template Matching nur für z € U bereitgestellt werden. 
Weiter sind die Berechnung der nicht normierten A-Posteriori-Verteilung 
gemäß Gleichung (5.70) und die Bestimmung der signifikantesten Werte für 
(Z1, Z2, Z3) nur im Hinblick auf z € U durchzuführen. 


Die Berechnung der normalisierten Kreuzkorrelation im Ortsbereich kann un- 
nötig hohen Aufwand verursachen. In diesem Fall lässt sich eine Beschleuni- 
gung durch den Einsatz der schnellen Fourier-Transformation (im Englischen: 
fast Fourier transform (FFT)) und den Einsatz von Integralbildern erzielen (sie- 
he hierzu z.B. [Bey12], [Gon02], [Lew95] und [Vio01]). Hierfür müssen die 
auszuwertenden Anteile von Zı X Zz jedoch in (jeweils geschlossen) recht- 
eckiger Form vorliegen. Da diese Situation einen guten Beispielfall dafür dar- 
stellt, dass es nötig sein kann, einen lokalen Kontext aus praktischen Grün- 
den wieder auszuweiten und hinsichtlich seiner Zerlegung in einzelne Anteile 
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umzustrukturieren, soll auf das mögliche Vorgehen hierbei anhand des vor- 
liegenden Beispiels noch etwas genauer eingegangen werden. 


Als Vorbereitung für das Template Matching werden dazu für jedes mögliche 
Richtungspaar 4 € R; = {{n,s}, {o,w}} die zusammenhangenden Anteile in den 
durch den lokalen Kontext U als auszuwertend notierten räumlichen Gebieten 


G@)xG@m:= U UP xUP czxz (5.75) 
jet, J+K}: 
u =r 


auf eine rechteckige Form von minimaler Größe ausgeweitet. Hierfür kann 
ein Region Growing Verfahren (siehe z.B. [Aza07] oder [Gon02]) angewandt 
werden. Ein Region Growing Verfahren ist ein Segmentierungsverfahren, wel- 
ches einzelne Punkte oder Regionen eines Bildes nach einem vordefinierten 
Kriterium in größere Regionen gruppiert. Es bezeichne J, die Anzahl der für 
rn = {n,s} und J die Anzahl der für n = {o,w} resultierenden Gebiete. Zur 
Durchführung des Template Matchings wird der lokale Kontext U dann ent- 
sprechend der so konstituierten rechteckigen Gebiete ve I% ve Ic ZıxZ, 
Jeil..,J +J}, auf V mit U C V ausgeweitet: 


JıtJa : i . 
V= U VO xv x Z x vV . (5.76) 
jal 


Dabei gilt vn = {n,s} für j € {1,...,J,} und es gilt weiter vn = {o,w} für 
JEM +1. J +h}. 


Um dafür zu sorgen, dass die Differenz |V| — |U| möglichst moderat aus- 
fällt, kann dabei noch das folgende Schema rekursiv für die Identifikation 
und Verkleinerung von zu umfangreich ausfallenden Anteilen yl x vu ), 
Jetl..,Jı + J}, angewandt werden: Es wird geprüft, ob vn x vu einen 
recht großen nicht relevanten, rechteckigen Anteil B aus Z, X Z, enthält. Ein 
solcher Anteil B C ve x A ; liegt vor, wenn er mehr als A Prozent von 
u! ) x vu | ausmacht und (für das entsprechende Richtungspaar) kein Teil 
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von den in Form des lokalen Kontexts U identifizierten Bereichen von Z4 X Z3 
ist. Enthält y ) x vu ) einen derartigen Anteil B, so wird er aus y ) x A ) 
entfernt, und der Rest von yu x vu ) wird (in Abhangigkeit von der Lage von 
B innerhalb von yu x ve ) in zwei, drei oder vier neue rechteckige Gebiete 
aufgespalten. Es sei angemerkt, dass sich dieses Schema zur Aufsplittung der 
Anteile vn x vn j € {1,..., J +55}, grundsätzlich gesehen auch noch ad- 
aptieren lässt, um eine bessere verteilte Umsetzung der lokalen Bayes’schen 
Fusion (falls eine solche vorgesehen ist) zu ermöglichen. So könnte man z.B. 
auch allgemein recht umfangreiche resultierende Anteile aufsplitten. 


5.3.4 Evaluation und Diskussion 


In Abb. 5.9 ist das Endergebnis der zuvor beschriebenen, in Teilen heuristi- 
schen Umsetzung der lokalen Bayes’schen Fusion im Hinblick auf die gemäß 
dem Ziel der Aufklärung vorzunehmende Feststellung des Vorhandenseins so- 
wie von Typ und Position der Fahrzeuge im Interessengebiet illustriert. Alle 
Fahrzeuge wurden korrekt detektiert und klassifiziert, das Endergebnis ent- 
hält auch keine Fehldetektionen. 


Die schraffierten Gebiete im in Abb. 5.9 dargestellten Ergebnisbild markieren 
die räumlichen Bereiche, für welche (nicht normierte) Werte der A-Posteriori- 
Verteilung berechnet wurden und welche dann weiter (lokal) hinsichtlich der 
signifikantesten Werte für (Z1,2,,23) ausgewertet wurden. Die genaue Aus- 
prägung der Schraffur kennzeichnet, ob dabei die Hypothese z4 € {o, w} (ho- 
rizontale Fahrtrichtung) oder die Hypothese z4 € {n, s} (vertikale Fahrtrich- 
tung) betrachtet wurde. 


Die farbig markierten Rechtecke in Abb. 5.9 kennzeichnen ergänzend in räum- 
licher Hinsicht die Bereiche, welche sich wie in Abschnitt 5.3.3 beschrieben 
bei der Ausweitung von U zu V ergeben. Die dabei beim Template Matching 
jeweils auszuwertenden Fahrtrichtungen sind in der Abbildung anhand der 
Schraffur der durch die farbigen Rechtecke jeweils umschlossenen Bereiche 
erkennbar. Zur finalen Konstitution von V wurde A = 15 (Prozent) gewählt. In 
diesem Fall ergibt sich, dass 89 Prozent der beim Template Matching berech- 
neten Werte der Likelihood-Funktionen I(d,|z), s € {2,3,4}, auch tatsächlich 
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zur Berechnung der (nicht normierten) A-Posteriori-Verteilung benötigt wer- 
den. 


Y 
Vs 


- horizontal 


N 
N 


vertikal 


Abbildung 5.9: Endergebnis der auf Basis lokaler Bayes’scher Fusion durchgeführten Detektion 
und Klassifikation der im Interessengebiet vorhandenen Fahrzeuge sowie Dar- 
stellung von U und V. 


Bei der vorgenommenen Umsetzung (mit den zuvor jeweils im Text angege- 
benen Parametrisierungen der Verfahren) gilt |U| ~ 3 - 10°, während hin- 
sichtlich des gesamten, bei der Modellierung der Fusionsaufgabe festgeleg- 
ten Wertebereichs der Größen des Interesses wie in Abschnitt 5.3.2 darge- 
stellt |Z| > 2 - 107 gilt. Dabei ist anzumerken, dass sich in einer realen An- 
wendung eine deutlichere Einschränkung des Wertebereichs der Größen des 
Interesses ergeben kann, als es das hier konkret dargestellte, diesbezüglich 
durchaus mit Einschränkungen versehene Beispiel zu verdeutlichen vermag. 
Entsprechende Faktoren hierfür stellen, wiederum bezogen auf das konkrete 
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Beispiel, das Vorliegen eines umfangreicheren Interessengebiets mit räumlich 
verteilter angeordneten Fahrzeugen sowie das Vorliegen einer umfangreiche- 
ren Menge Z; von möglichen Fahrzeugtypen verbunden mit dem Vornehmen 
einer Einschränkung auch hinsichtlich dieser dar. Auf weitere Faktoren in 
methodischer Hinsicht wird nachfolgend noch eingegangen. 


Bei der konkret vorgenommenen Umsetzung der lokalen Bayes’schen Fu- 
sion für das im Rahmen des vorliegenden Abschnitts betrachtete Beispiel 
wurde bewusst der Fall adressiert, dass nicht das (aus Sicht der (globalen) 
Bayes’schen Modellierung) optimale Verfahren zur Auswertung der in Form 
von d, d; und d, vorliegenden Bilddaten verwendet wird. Hierdurch wird 
deutlich, dass auch der Einsatz eines nicht optimalen Verfahrens zur Vor- 
auswertung der Informationsbeiträge im Hinblick auf die Bestimmung von 
Auffälligkeiten in Z zu korrekten Ergebnissen bei der lokalen Bayes’schen Fu- 
sion führen kann. Wesentlich hierfür ist, dass der lokale Kontext U tatsächlich 
die relevanten Auffälligkeiten enthält. Die Tatsache, dass der lokale Kontext 
U (wie hier der Fall) dadurch zusätzliche mögliche Werte aus Z enthält, 
hat dabei keine negativen Auswirkungen im Hinblick auf die Korrektheit 
der lokalen Bayes’schen Fusion. Sie wirkt sich durch den resultierenden 
größeren Umfang des lokalen Kontexts U aber natürlich auf den Aufwand 
zur Berechnung der A-Posteriori-Verteilung aus, welcher sich entsprechend 
erhöht. Die Entscheidung, ob es im Realfall vorteilhafter ist, mehr Aufwand 
in eine optimale Vorauswertung zu investieren, oder alternativ (wie hier 
beispielhaft umgesetzt) bedingt durch einen größeren Umfang des lokalen 
Kontexts U mehr Aufwand zur Durchführung der eigentlichen Fusion in 
Kauf zu nehmen, wird i. A. an den konkret vorliegenden Ressourcen (auch: 
Auswertefähigkeiten) und ggf. auch deren Verteilung und Konnektivität z.B. 
innerhalb eines größeren Netzwerks festzumachen sein. 


Durch die Verwendung der Spektralfilter bei der Aufnahme der in Form von 
dz, d3 und d; vorliegenden Bilddaten ergibt sich ein gutes Beispiel dafür, wie 
sich die unterschiedlichen, bei der Fusion vorliegenden Informationsbeiträge 
gegenseitig ergänzen können. Dies ist bei der konkret durchgeführten Umset- 
zung bereits bei der nicht optimalen Vorauswertung der Bilddaten zur Konsti- 
tution der entsprechenden Anteile von U der Fall. Auch trägt im vorliegenden 
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Beispiel die Berücksichtigung der von den menschlichen Beobachtern gelie- 
ferten Information wesentlich dazu bei, dass der lokale Kontext U tatsächlich 
alle relevanten Werte für (Z],2,,23) enthält. Da die Fahrzeuge vom Typ D und 
O sich in allen drei Spektralbildern nur sehr schlecht vom Untergrund abhe- 
ben, werden die entsprechenden Anteile von Z bei der vorgenommenen nicht 
optimalen Vorauswertung der Bilddaten nämlich nicht als auffällig identifi- 
ziert. In einer realen Anwendung könnte die von menschlichen Beobachtern 
gelieferte Information auch entsprechend komplettierend wirken, wenn die 
zu detektierenden Objekte (hier: Fahrzeuge) in den Bilddaten aufgrund von 
Verdeckungen nicht oder nur teilweise sichtbar sind. 


Da dem Menschen in der Regel die Feststellung der genauen Positionen nicht 
besonders exakt gelingt, sind (wie in Abb. 5.9 gut erkennbar) aufgrund der 
resultierenden ausgeprägten Unsicherheiten diesbezüglich die auf Basis des 
Informationsbeitrags dı resultierenden Anteile von U in räumlicher Hinsicht 
deutlich umfassender ausgeprägt als die Anteile, welche sich durch Voraus- 
wertung der in Form von d,, d} und d, vorliegenden Bilddaten ergeben. Das 
im vorliegenden Abschnitt adressierte Beispiel verdeutlicht dadurch auch sehr 
gut, dass ein Abgleich der sich durch die Vorauswertung unterschiedlicher 
Informationsbeiträge ergebenden Ausschnitte von Z hilfreich sein kann. Lie- 
fert die Vorauswertung der in Form von d,, d und d4 vorliegenden Bilddaten 
Auffälligkeiten in Z, von welchen auszugehen ist, dass sie mit Auffälligkeiten, 
welche auf Basis von d} ermittelt wurden, korrespondieren, so könnte man 
die lokale Bayes’sche Fusion in Bezug auf diese z.B. in einem ersten Schritt 
nur bezogen auf die in räumlicher Hinsicht weniger umfangreichen Anteile, 
welche sich aus der Vorauswertung von d,, d} und d, ergeben, durchfüh- 
ren. Gegebenenfalls könnte man diese unter Berücksichtigung der aus der 
Betrachtung von d, resultierenden Ausschnitte von Z dann auch hinsichtlich 
der im ersten Schritt berücksichtigten möglichen Fahrzeugtypen noch weiter 
einschränken. Man könnte speziell für den Fall der hier durchgeführten quali- 
tativen Analyse dann prüfen, ob sich bereits durch diesen ersten Schritt signi- 
fikante Werte (Z,2,,23) insgesamt ausreichend im Hinblick auf die Ableitung 
erster konkreter (möglicherweise zeitkritischer) Aktionen identifizieren las- 
sen. Die in diesem ersten Schritt nicht betrachten Anteile von U könnten dann 
im Rahmen einer Zweitanalyse, bei der man die lokale Bayes’sche Fusion im 
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Hinblick auf die noch nicht analysierten Anteile von U komplettiert, mitein- 
bezogen werden. Dadurch könnte man dann die erzielten Ergebnisse weiter 
verifizieren und/oder erforderliche Aktionen weiter präzisieren. Ein Beispiel 
für eine entsprechende Aktion könnte allgemein gesehen die Planung wei- 
terer Aufklärungsaktivitäten, z.B. in Form eines Cross Cueings (siehe z.B. 
[Koc14]), bezogen auf einen als besonders beobachtungswert identifizierten 
Teilbereich des Interessengebiets sein. 


Insgesamt lässt sich festhalten, dass das im vorliegenden Abschnitt 5.3 adres- 
sierte Beispiel trotz seiner (notwendigerweise) nicht vollständigen Realitäts- 
treue und der vereinfachten und in Teilen auch heuristischen Umsetzung der 
lokalen Bayes’schen Fusion relevante Erkenntnisse für die vorliegende Ar- 
beit liefert, welche die aus den theoretischen Untersuchungen resultierenden 
Erkenntnisse komplettieren. Besonderes erwähnt werden diesbezüglich sol- 
len insbesondere auch noch einmal die Vorteile, die sich im Hinblick auf die 
weitere Auswertung von Informationsbeiträgen und letztlich auch die Hand- 
habung der lokal zu betrachtenden Anteile von Z ergeben, wenn man einen 
lokalen Kontext auf eine besser verarbeitbare Struktur ausweitet. In der Praxis 
müssen dann auch für solche Aufgaben geeignete und ausreichend effiziente 
Verfahren zur Verfügung stehen. 
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6.1 Einführung 


Für die lokale Bayes’sche Fusion müssen in einem ersten Schritt die zur Fusion 
vorliegenden Informationsbeiträge im Hinblick auf Auffälligkeiten in Z unter- 
sucht werden. Auf Basis dieser Auffälligkeiten wird dann der lokale Kontext 
U C Z, auf den die Fusion konzentriert wird, festgelegt. Im in Abschnitt 5.3 
bereits adressierten Beispiel zur lokalen Bayes’schen Fusion wurde der lokale 
Kontext U recht intuitiv anhand der konkreten Aufgabenstellung, der vor- 
liegenden Informationsbeiträge und der zu ihrer Auswertung verwendeten 
Verfahren festgelegt. Wesentlich im Hinblick auf die Praktikabilität eines der- 
artigen Vorgehens ist dabei vor allem die Tatsache, dass es für die Korrektheit 
der lokalen Bayes’schen Fusion genügt, wenn der lokale Kontext U insgesamt 
gesehen mindestens die tatsächlich relevanten Auffälligkeiten aus Z enthält. 


Der Begriff Korrektheit ist dabei in dem Sinne zu verstehen, dass der lokale 
Kontext U die tatsächlich relevanten Auffälligkeiten aus Z enthalten muss, da 
ansonsten die mittels lokaler Bayes’scher Fusion erzielten Ergebnisse kaum 
nützlich sind und sich gerade bei einer nicht nur qualitativen Analyse zu- 
dem die Gefahr, dass sie zu falschen Schlüssen verleiten, deutlich erhöht. Die 
in Abschnitt 5.2 formulierten Regeln zur Bildung eines lokalen Bayes’schen 
Modells und zur Durchführung der (lokalen) Berechnungen sind dementge- 
gen mathematisch gesehen immer korrekt - unabhängig davon, ob der lokale 
Kontext U sinnvoll gewählt wurde oder nicht. Das in Abschnitt 5.3 behandel- 
te Beispiel sowie die in Form von Gleichung (5.59) angegebene Möglichkeit, 
anhand welcher Agenten ihre lokalen Ergebnisse näherungsweise in Bezug 
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setzen können, haben auch deutlich gemacht, dass es im Hinblick auf die Ein- 
ordnung der mittels lokaler Bayes’scher Fusion erzielten Ergebnisse grund- 
sätzlich auch hilfreich sein kann, wenn der lokale Kontext U zusätzliche Ele- 
mente aus Z enthält, welche als Referenz im Hinblick auf die Einschätzung 
der Signifikanz lokal berechneter (im Beispiel nicht normierter) Wahrschein- 
lichkeitsaussagen dienen können. 


In diesem Kapitel wird der Frage nachgegangen, was aus mathematischer 
Hinsicht sinnvolle Vorgehensweisen zur Festlegung eines lokalen Kontexts 
U C Z (auch von möglichst minimalem Umfang) sind und wie sich die Güte 
lokaler Bayes’scher Modelle generell in Abhängigkeit von der Wahl des loka- 
len Kontexts U bewerten lässt. Hierzu werden zum einen in Abschnitt 6.2 die 
in Abschnitt 3.4.3 aufbereiteten Grundlagen der Likelihood-Inferenz aufge- 
griffen und erweitert, bevor auf dieser Basis mögliche Vorgehensweisen zur 
Festlegung eines lokalen Kontexts U und probabilistische Fehlerschranken 
im Hinblick auf die voraussichtliche Stimmigkeit eines lokalen Bayes’schen 
Modells abgeleitet werden. Zum anderen werden in Abschnitt 6.3 die in Ab- 
schnitt 3.5.1 eingeführten Prinzipien aus dem Kontext der Informationstheo- 
rie aufgegriffen und erweitert, um die Frage nach der Korrektheit der lokalen 
Bayes’schen Fusion aus informationstheoretischer Sicht zu beleuchten. 


6.2 Prinzipien statistischer Evidenz 


6.2.1 Irreführende statistische Evidenz 


Gilt für z*,z** € Z dass I(d|z*) > I(d|z**) ist, so liefern die in d zusam- 
mengefassten Informationsbeiträge gemäß dem bereits in Abschnitt 3.4.3 ein- 
geführten Law of Likelihood statistische Evidenz für z* vis-a-vis z**. Weiter 
stellt gemäß dem Law of Likelihood die Likelihood-Ratio I(d|z*)/l(d|z**) ein 
quantitatives (relatives) Maß für die Stärke der von d gelieferten statistischen 
Evidenz dar. 


Zwecks verbaler Interpretation der Stärke statistischer Evidenz ist es in 
der Fachliteratur üblich, die kontinuierlichen Werte der Likelihood-Ratio in 
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unterschiedliche Kategorien einzuteilen (siehe z.B. [Ait04], [Blu02], [Edw92], 
Def61], [Luc05], [Kas95], [Roy97], [Roy00]). Gängig ist besonders die in 
[Roy00] vorgeschlagene Einteilung, welche vom Autor bereits zuvor in 
[Roy97] unter Bezugnahme auf ein kanonisches, auf dem Ziehen aus unter- 
schiedlichen Urnen basierendes Zufallsexperiment (vgl. z.B. auch [Hen10]) 
begründet wurde. Dieser Einteilung zufolge stellt (für z* vis-a-vis z**) eine 
Likelihood-Ratio I(d|z*)/l(d|z**) = k schwache (im Englischen: weak) statis- 
tische Evidenz dar, falls 1 < k < 8 gilt. Sie stellt recht starke (im Englischen: 
fairly strong) statistische Evidenz dar, falls 8 < k < 32 gilt, und starke (im 
Englischen: strong) statistische Evidenz, falls k > 32 gilt. 


Statistische Evidenz kann grundsätzlich auch irreführend sein. Die in d zu- 
sammengefassten Informationsbeiträge liefern (insgesamt gesehen) irrefüh- 
rende statistische Evidenz in Bezug auf die in Form von z* und z** vorliegen- 
den Hypothesen für den „wahren“ Wert der (durch z verkörperten) Größen 
des Interesses, wenn gilt: Es ist l(d|z*)/l(d|]z**) > 1, tatsächlich ist aber z** 
der „wahre“ Wert von z. 


Dass das Law of Likelihood trotz der Tatsache, dass statistische Evidenz 
grundsätzlich irreführend sein kann, stimmig ist, liegt u.a. daran, dass die 
Wahrscheinlichkeit dafür, dass irreführende statistische Evidenz von einer 
bestimmten Stärke auftritt, grundsätzlich in Abhängigkeit von deren Stärke 
begrenzt ist. Genauer gilt allgemein (mit der bisherigen Notation) für 


I(d|z*) 
= {8 €D| Kar 2 4 ey 
die Abschatzung 
Pyu(A) = ‘i pdiz™*)dd < +. 6.2) 
deA 


Ist also z** der „wahre“ Wert der (durch z verkörperten) Größen des Interes- 
ses, so beträgt die Wahrscheinlichkeit dafür, dass d dementgegen sprechend 
irreführende statistische Evidenz von mindestens der Stärke k für z* vis-a-vis 
z** liefert, höchstens 1/k. Die in Form von Gleichung (6.1) und Gleichung (6.2) 
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formulierte allgemeingültige Schranke für die Wahrscheinlichkeit irreführen- 
der statistischer Evidenz wird von Royall in [Roy97] und [Roy00] bewiesen 
und intensiv diskutiert. Sie wurde bereits davor von anderen Wissenschaft- 
lern in unterschiedlichen Kontexten hergeleitet. Zu nennen sind diesbezüglich 
[Dem97] und [Las91] sowie weitere Autoren, welche Royall in [Roy00] an- 
führt. Da der Beweis recht einfach ist, soll er an dieser Stelle in Anlehnung an 
[Roy97] kurz wiedergegeben werden: Für d € A gilt wegen Gleichung (6.1), 
dass p(d|z**) < 1/k p(d|z*) ist. Hieraus und aus der Tatsache, dass die Wahr- 
scheinlichkeit von Ereignissen immer kleiner gleich Eins ist, ergibt sich sofort 


(6.3) 


aim 


BD | Pldjz'*)dd < zf pldjz*)dd < 
deA deA 


Es sei angemerkt, dass sich beim Vorliegen spezieller Verteilungsannahmen, 
insbesondere Normalverteilungsannahmen, auch genauere Abschätzungen 
ergeben, siehe hierzu z.B. [Roy00]. 


Die Wahrscheinlichkeit für irreführende statistische Evidenz ist relevant für 
die Planung eines statistischen Experiments. Sie spielt jedoch keine Rolle im 
Hinblick auf die letztliche Feststellung, ob z** tatsächlich der „wahre“ Wert 
der (durch z verkörperten) Größen des Interesses ist. Basis dieser Feststellung 
muss allein die aus der Anwendung des Satz von Bayes (vgl. Gleichung (3.22)) 
resultierende A-Posteriori-Wahrscheinlichkeitsverteilung p(z|d) sein (vgl. 
[Roy97] und insbesondere auch [Blu11]). Wie in Abschnitt 3.4.3 bereits 
erläutert wurde, ist für diese Feststellung gerade der bezüglich des „wahren“ 
Werts von Z insgesamt vorliegende Informationsstand, welcher auch das 
vorhandene Vorwissen umfasst, relevant. 


Aufgrund ihrer grundsätzlichen Bedeutung im Hinblick auf die Stimmigkeit 
des Law of Likelihood soll an dieser Stelle noch kurz auf einige weitere, u.a. 
in [Roy97] und [Roy00] angeführte und diskutierte Ergebnisse im Hinblick 
auf die Wahrscheinlichkeit irreführender statistischer Evidenz eingegangen 
werden. Hierzu sei (ausnahmsweise) angenommen, dass d,d}, ... eine belie- 
big fortsetzbare Folge unabhängiger und identisch gemäß p(d,|z**) verteilter 
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Zufallsvariablen darstellt (s € N). Gemäß [Rob70] gilt 


. (4) 


ale 


S 
I(d,|z*) = : ; 
kk ea Ama > ... < 
P, (11 Kalz k für (mindestens) ein s € 1,2, < 


Gleichung (6.4) sagt gerade aus, dass man die in Form von Gleichung (6.1) und 
Gleichung (6.2) formulierte Schranke für die Wahrscheinlichkeit irreführen- 
der statistischer Evidenz letztlich auch nicht umgehen kann, indem man das 
mit der Generierung einer gemäß p(d,|z**) verteilten Beobachtung verbunde- 
ne Zufallsexperiment gezielt wiederholt, um irreführende statistische Evidenz 
der Stärke mindestens k für z* vis-a-vis z** zu generieren. Dieses Vorhaben 
wird mit Wahrscheinlichkeit 1 — 1/k fehlschlagen (vgl. hierzu auch [Blu02]). 
Da die in Gleichung (6.4) angegebene Likelihood-Ratio IL I(d,|z*)/I(d;|z**) 
fürs > oo fast sicher (d.h. mit Wahrscheinlichkeit Eins) gegen Null kon- 
vergiert (vgl. [Roy97] und [Roy00]), kann man weiter davon ausgehen, dass 
im Fall, dass z** der „wahre“ Wert ist, bei ausreichend großer Wahl von S 
durch d = (dj,...,dg) statistische Evidenz von mindestens der Stärke k für 
z** vis-a-vis Z* geliefert wird. 


6.2.2 Anwendung für die lokale Bayes’sche Fusion 


Im vorliegenden Abschnitt werden Ergebnisse formuliert, welche die in Ab- 
schnitt 6.2.1 in erweiterter und aufbereiteter Form dargestellten Prinzipien 
statistischer Evidenz als Basis nutzen, um eine aus statistischer Sicht sinn- 
volle und quantitativ bewertbare Vorgehensweise zu Festlegung des lokalen 
Kontexts U zu formulieren. Diese Ergebnisse und die erforderlichen Grund- 
lagen zu den Prinzipien statistischer Evidenz wurden zuvor in [San10c] und 
anteilig in [San08] und [San09c] veröffentlicht. 


Die konkrete Vorgehensweise zur Festlegung des lokalen Kontexts U leitet 
sich letztlich aus dem Law of Likelihood und der in Form von Gleichung (6.1) 
und Gleichung (6.2) formulierten Schranke für die Wahrscheinlichkeit irre- 
führender statistischer Evidenz ab. Wie bereits in Abschnitt 3.4.3 dargestellt 
wurde, eignet sich die standardisierte Likelihood-Funktion 1,,(d|z), welche re- 
sultiert, wenn man die Likelihood-Funktion I(d]|z) auf einen Maximalwert von 
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Eins skaliert, recht gut, um einen Überblick über die von d gelieferte statisti- 
sche Evidenz zu erhalten. Aus diesem Grund wird im Folgenden stets gleich 
konkret auf diese Bezug genommen. 


Wählt man den lokalen Kontext U wie folgt durch Anlegen einer geeigneten 
Schranke 1/k an die standardisierte Likelihood-Funktion, 


U :={zEZ|I(dlz) > ch, (6.5) 


so enthält der lokale Kontext U gerade die möglichen Werte für z, welche 
am konsistentesten mit der in Form von d vorliegenden Information sind: 
Der lokale Kontext U enthält dann gerade die möglichen Werte aus Z, ge- 
genüber welchen der von d am besten gestützte mögliche Wert aus Z, d.h. 
der Maximum-Likelihood-Schätzwert, um einen Faktor, welcher geringer als 
k ist, besser gestützt wird. Für jeden nicht im lokalen Kontext U enthaltenen 
möglichen Wert aus Z gibt es (mindestens) einen Wert in U, der von d um 
einen Faktor, welcher mindestens k ist, besser gestützt wird. 


Legt man den lokalen Kontext U wie in Gleichung (6.5) fest, so fungiert die in 
Gleichung (6.1) und Gleichung (6.2) formulierte Schranke für die Wahrschein- 
lichkeit irreführender statistischer Evidenz in bestimmtem Sinne als probabi- 
listische Fehlerschranke für die Korrektheit (im Sinne von Abschnitt 6.1) lo- 
kaler Bayes’scher Fusion. Die Wahrscheinlichkeit (hier zu verstehen im Sinne 
der Degree-of-Belief-Interpretation) dafür, dass man auf Basis dieser Festle- 
gung ein lokales Bayes’sches Modell konstruiert, bei dem der „wahre“ Wert 
der (durch z verkörperten) Größen des Interesses nicht im lokalen Kontext U 
enthalten ist, lässt sich durch 1/k abschätzen. Wie aus Gleichung (6.2) erkenn- 
bar, wird diese Wahrscheinlichkeit letztlich von einem pre-experimentellen 
Standpunkt aus formuliert. Konkret quantifiziert wird der Degree-of-Belief 
dafür, dass die in d zusammengefassten Informationsbeiträge sich so ausge- 
stalten, dass das (dann auf Basis der konkret vorliegenden Informationsbeiträ- 
ge umgesetzte) Vorgehen zur Festlegung des lokalen Kontexts U nicht stim- 
mig im Hinblick auf die konkret in Form von d vorliegende Information ist. 


Die statistische Evidenz, welche von einem in d enthaltenen Informationsbei- 
trag d,,s € {1,... ,S}, alleine geliefert wird, lässt sich in Form der (individu- 
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ellen) standardisierten Likelihood-Funktion I,(d,|z) fassen. Auf dieser Basis 
ist eine individuelle Auswertung der von den einzelnen Informationsquellen 
erfassten Informationsbeiträge im Hinblick auf die von ihnen jeweils gelie- 
ferte statistische Evidenz möglich. Dieses Vorgehen ist besonders dann in- 
teressant, wenn die Informationsbeiträge als statistisch unabhängig gegeben 
Z angenommen werden können und wie in Abschnitt 3.5.2 beschrieben in- 
dividuell in die Fusion eingebracht werden. Wie ebenfalls in Abschnitt 3.5.2 
begründet lässt sich diese Annahme oftmals beim Vorliegenden heterogener 
Informationsquellen rechtfertigen. Es liegt auf der Hand, dass in diesem Fall 
die Möglichkeit zur individuellen Vorauswertung der Informationsbeiträge im 
Hinblick auf die Festlegung des lokalen Kontexts U besonders günstig sein 
kann, da hierfür (genauer: zur Formulierung der entsprechenden Likelihood- 
Funktionen) in der Regel unterschiedliche Arten von Expertise nötig sind. 


An dieser Stelle wird auch die in Abschnitt 4.3 skizzierte Analogie zwischen 
lokaler Bayes’scher Fusion und kriminalistischen Ermittlungen zur Aufklä- 
rung eines Verbrechens wieder besonders deutlich. Ein forensischer Exper- 
te, der bestimmte Daten in Bezug auf eine mögliche Straftat auswerten soll, 
muss, wie auch in Abschnitt 3.4.3 dargestellt, ein allein auf diesen Daten beru- 
hendes Ergebnis liefern. Das von ihm gelieferte Ergebnis muss dabei jedoch 
so beschaffen sein, dass es durch die ermittelten Beamten bzw. später final 
durch ein Gericht mit Ergebnissen, welche aus der Auswertung weiterer Da- 
ten resultieren, und dem verfügbaren Vorwissen kombiniert werden kann. 


Für die lokale Bayes’sche Fusion macht es in dieser Situation Sinn, den lo- 
kalen Kontext U so festzulegen, dass er die möglichen Werte aus Z enthält, 
welche am konsistentesten mit den (nun individuell betrachteten) Informati- 
onsbeiträgen sind. Eine entsprechende Festlegung kann durch Anlegen einer 
geeigneten Schranke 1/k an die (individuellen) standardisierten Likelihood- 
Funktionen gemacht werden, d.h. 


U := fz E Z| l&(d;|z) > 2 für mindestens eins € {1,... S3} 3 (6.6) 


Auch in diesem Fall ergibt sich aus Gleichung (6.1) und Gleichung (6.2), dass 
die Wahrscheinlichkeit dafür, dass man auf Basis dieser Festlegung ein loka- 
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les Bayes’sches Modell konstruiert, bei dem der „wahre“ Wert der (durch z 
verkörperten) Größen des Interesses nicht im lokalen Kontext Uenthalten ist, 
durch e beschränkt ist. Im Falle der bedingten Unabhängigkeit der Informa- 
tionsbeiträge gegeben z verschärft sich diese Schranke zu 1/k°. Man beachte 
dabei, dass in der Situation von Gleichung (6.6) das Komplement des lokalen 
Kontexts U gerade wie folgt festgelegt ist: 


O={zez 


1.(d,|z) < > für alle s € {1,...,S}}. (6.7) 


Hinsichtlich des in Abschnitt 6.2.1 angegebenen Schemas zur verbalen Inter- 
pretation der Stärke statistischer Evidenz scheint es auf Basis der im Rahmen 
der vorliegenden Arbeit hierzu angestellten Überlegungen sinnvoll, dieses im 
Fall von Gleichung (6.6) und der bedingten Unabhängigkeit der Informati- 
onsbeiträge auf 1/k° anzuwenden. Dabei ist anzumerken, dass notwendige 
Anpassungen an dieser Festlegung, insbesondere auch eventuelle (wohl ge- 
ringfügige) Anpassungen am zugrundeliegenden Schema selbst, für reale An- 
wendungen der Informationsfusion nicht ausgeschlossen werden können. 


Soll die Bestimmung des lokalen Kontexts U möglichst genau an den verfüg- 
baren Ressourcen festgemacht werden, so ist es vorstellbar, dass man in der 
Praxis die gemäß Gleichung (6.5) bzw. Gleichung (6.6) anzulegenden Schran- 
ken in Abhängigkeit vom resultierenden Umfang des lokalen Kontexts U fest- 
legt. Die verbale Interpretation der Stärke statistischer Evidenz und die pro- 
babilistische Fehlerschranke, auf Basis deren man die Planung ansonsten ma- 
chen würde, können dabei dann herangezogen werden, um die sich so erge- 
bende Festlegung des lokalen Kontexts U im Hinblick auf die Durchführung 
der eigentlichen lokalen Bayes’schen Fusion grundsätzlich zu beurteilen. 


Falls der lokale Kontext U einen bestimmten Umfang nicht überschrei- 
ten soll und/oder der Aufwand zur Bestimmung der zur Auswertung von 
Gleichung (6.5) bzw. Gleichung (6.6) benötigten standardisierten Likelihood- 
Funktionen sowie der Aufwand zur Auswertung derselben an sich mitberück- 
sichtigt werden sollen, so bietet es sich an, diese Vorauswertung auf geeignete 
Approximationen der standardisierten Likelihood-Funktionen anzuwenden. 
Es könnte sich weiter auch anbieten, die entsprechende Vorauswertung der 
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in d zusammengefassten Informationsbeiträge auf eine Teilmenge derselben 
zu konzentrieren und dafür aber eine niedrigere Schranke an die betrachteten 
standardisierten Likelihood-Funktionen anzulegen. 


Gemäß Gleichung (6.6) wird bei individueller Betrachtung der Informations- 
beiträge ein möglicher Wert aus Z gerade dann ignoriert, wenn bezüglich aller 
herangezogenen Informationsbeiträge der entsprechende Wert der standardi- 
sierten Likelihood-Funktionen kleiner gleich 1/k ist (vgl. Gleichung (6.7)). Es 
ist zu erwarten, dass für einen festen Wert von 1/k die Auswertung von nur 
T < S Informationsbeiträgen zu einem geringeren Umfang des resultieren- 
den lokalen Kontexts U führen wird. In diesem Fall besteht also die Möglich- 
keit, die an die standardisierten Likelihood-Funktionen angelegte Schranke 
von 1/k geeignet auf 1/m mit m > k zu reduzieren, ohne dass der zur Durch- 
führung der Fusion anfallende Aufwand (bezogen auf den Umfang des lokalen 
Kontexts U) zunimmt. Die niedrigere angelegte Schranke 1/m korrespondiert 
wiederum mit der Planung auf Basis einer geringeren Fehlerschranke der Grö- 
Be 1/m bzw. 1/mT im Falle der bedingten Unabhängigkeit der Informations- 
beiträge. 


Durch dieses Vorgehen lassen sich die Bestimmung und Auswertung der nicht 
betrachteten S-T standardisierten Likelihood-Funktionen für die Vorauswer- 
tung vermeiden. Erfolgt die lokale Bayes’sche Fusion wie in Abschnitt 5.2.3 
beschrieben eingeschränkt auf den lokalen Kontext U, so müssen die für die 
Vorauswertung nicht genutzten, aber zur Durchführung der Fusion benötig- 
ten Likelihood-Funktionen dann nur für die in U enthaltenen möglichen Wer- 
te aus Z bestimmt und für die Fusion bereitgestellt werden’. 


Wird angestrebt, einen lokalen Kontext U eines bestimmten Umfangs zu er- 
halten, so lässt sich die Frage, ob dafür besser nur T < S Informationsbeiträge 


* Es sei angemerkt, dass anhand von dem in Abschnitt 5.3 dargestellten Beispiel deutlich wurde, 
dass es in der Praxis technisch, d.h. zur besseren Handhabung bzw. Auswertung der resultie- 
renden Anteile von Z sinnvoll sein kann, den lokalen Kontext U auszuweiten. In diesem Fall 
müssen die nur zur Durchführung der Fusion benötigten Likelihood-Funktionen dann (sofern 
die Ausweitung auch die Verarbeitung der mit ihnen korrespondierenden Informationsbeiträge 
betrifft) für die mit der Ausweitung korrespondierenden Anteile von Z bestimmt und bereitge- 
stellt werden. 
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oder alle S Informationsbeiträge vorausgewertet werden sollen, nicht pau- 
schal beantworten. Resultiert z. B. im Falle der bedingten Unabhängigkeit der 
Informationsbeiträge als anzulegende Schranke 1/m, wenn nur T < S Infor- 
mationsbeiträge vorausgewertet werden, und 1/k, wenn alle S Informations- 
beitrage vorausgewertet werden, so hangt es von den sich bei einer konkreten 
Fusionsaufgabe fiir m, k, T und S ergebenden Werten ab, ob 1/mT < 1/k$ gilt 
oder nicht. Es sei angemerkt, dass neben dieser rein formal-mathematischen 
Betrachtung hier natürlich auch (inhaltliche) Aspekte im Hinblick auf die kon- 
kret vorliegende Aufgabenstellung berücksichtigt werden sollten. So sollte 
man in der Regel auch berücksichtigen, in welchem Zusammenhang die In- 
formationsquellen bzw. die von ihnen gelieferten Beiträge zueinander stehen 
(vgl. Abschnitt 2.4.1), bzw. auch darüber hinaus, was hinsichtlich der jeweili- 
gen Stärken und Schwächen der Informationsquellen bekannt ist. 


Es liegt auf der Hand, dass zur Festlegung des lokalen Kontexts U neben ei- 
ner Auswertung der standardisierten Likelihood-Funktion(en) auch die Aus- 
wertung des durch p(z) verkörperten Vorwissens in Betracht gezogen wer- 
den sollte, um dafür zu sorgen, dass P(U |d) möglichst groß ausfällt. Wie in 
[San08] aufgezeigt lässt sich dies technisch bewerkstelligen, indem man das 
Vorwissen als zusätzlich vorliegenden Informationsbeitrag dy ummodelliert. 
Mit dieser expliziten Notation für das Vorwissen ergibt sich gemäß dem Satz 
von Bayes (vgl. Gleichung (3.22)) die Proportionalitätsbeziehung 


p(zld,do) x Id, dolz)p(zldo) . (6.8) 


Da man normalerweise davon ausgeht, dass das Vorwissen d, und die in d zu- 
sammengefassten Informationsbeiträge gegeben z bedingt unabhängig von- 
einander sind, lässt sich Gleichung (6.8) umformen zu 


p(zld,do) & I(d|z)p(z|do) (6.9) 
œ I(d|z)I(do|z)pxx(2) - (6.10) 


Dabei bezeichnet I!(d,|z) die Likelihood-Funktion, welche mit dem als Infor- 
mationsbeitrag dọ ummodellierten Vorwissen korrespondiert, und pıı(Z) be- 
zeichnet eine geeignete nichtinformative A-Priori-Verteilung auf Z. 
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6.2.3 Anwendungsbeispiel 


Das Ziel des vorliegenden Abschnitts besteht darin, die in Abschnitt 6.2.2 vor- 
gestellten Ergebnisse im Hinblick auf die Festlegung des lokalen Kontexts U 
auf Basis der Prinzipien statistischer Evidenz anhand eines überschaubaren 
und möglichst gut nachvollziehbaren Beispiels zu verdeutlichen. Adressiert 
wird dabei der Fall, dass die vorliegenden Informationsbeiträge zu Bestim- 
mung des lokalen Kontexts U individuell ausgewertet und auch individuell 
in die Fusion eingebracht werden, da dieses Vorgehen in der Praxis gerade 
beim Vorliegen heterogener Informationsquellen oftmals besonders interes- 
sant sein wird. Als konkrete Anwendung wurde die naive Bayes’sche Klassi- 
fikation beim Ansetzen einer 0-1-Verlustfunktion gewählt. Die Informations- 
beiträge d, € D, korrespondieren dabei mit den zur Klassifikation vorliegen- 
den Attributen und z € Z korrespondiert mit der zugehörigen Klasse. Die 
nachfolgend dargestellte Untersuchung und die aus ihr resultierenden Ergeb- 
nisse wurden zuvor in ähnlicher Form in [San10c] veröffentlicht. 


Als Datengrundlage wurden zwei Datensätze aus dem UCI (University of Ca- 
lifornia at Irvine) Machine Learning Repository [Asu07, Dua19] ausgewählt 
und zwar konkret der Pendigits Datensatz (S = 16 Attribute, |Z| = 10 Klas- 
sen) und der Letter Recognition Datensatz (S = 16 Attribute, |Z| = 26 Klas- 
sen). In Anbetracht der letztlich doch recht überschaubaren Anzahl an Klassen 
in den beiden Datensätzen ist die Anwendung der lokalen Bayes’schen Fusi- 
on auf diese vor dem Hintergrund der Zielsetzung der vorliegenden Arbeit 
natürlich vor allem exemplarisch zu sehen. 


Die A-Posteriori-Wahrscheinlichkeit p(z|d) dafür, dass ein bestimmtes, in 
Form der ind = (d,,..,‚ds) zusammengefassten Attributwerte vorliegen- 
des Datum zu einer bestimmten Klasse z € Z gehört, wird bei der naiven 
Bayes’schen Klassifikation unter Annahme der bedingten Unabhängigkeit 
von d}, ... ‚ds gegeben z berechnet (vgl. Abschnitt 3.5.2). Das Ansetzen einer 
0-1-Verlustfunktion v(e,z) als Bewertungskriterium im Hinblick auf die 
Bestimmung eines optimalen Schätzwerts Z für z, d.h. 
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1 fall 
v(e,z) = wer? , (6.11) 
0 fallse =z 


liefert fiir Z gerade den Maximum-A-Posteriori-Schatzwert. Es gilt also, dass 
2 = arg max,_, p(2|d) ist. Vgl. Abschnitt 3.5.3 sowie [Bey08]. 


Konkret umgesetzt für die Untersuchung wurde die nachfolgende, in [Dom97] 
zu seiner Evaluation herangezogene, recht einfache Variante des naiven 
Bayes’schen Klassifikators: Die numerischen Attributwerte der Datensätze 
wurden in 10 Intervalle von jeweils gleicher Länge aufgeteilt. Nullen in den 
probabilistischen Repräsentationen, welche auftreten können, wenn in den 
Trainingsdaten zu einer Klasse ein bestimmter Attributwert niemals auftritt, 
wurden mittels Laplace-Korrektur vermieden. Die resultierenden Ergebnisse 
hinsichtlich der Korrektheit des naiven Bayes’schen Klassifikators wurden 
jeweils über 20 Testdurchläufe gemittelt berechnet. Für jeden Testdurchlauf 
wurden die Daten zufällig in Trainings- und Testdaten aufgeteilt, wobei die 
Trainingsdaten jeweils 2/3 der insgesamt vorliegenden Daten ausmachen. 


Die Vorab-Evaluation der beiden verwendeten Datensätze im Hinblick auf die 
Frage, ob sich eine Anwendung des naiven Bayes’schen Klassifikators grund- 
sätzlich rechtfertigen lässt, ergab, dass dieser (über die 20 Testdurchläufe) 
eine mittlere Korrektheit von circa 87,81 Prozent mit einer Standardabwei- 
chung von circa 0,58 Prozent auf dem Pendigits Datensatz und eine mittlere 
Korrektheit von circa 70,77 Prozent mit einer Standardabweichung von circa 
0,57 Prozent auf dem Letter Recognition Datensatz erreicht, so dass seine ex- 
emplarische Anwendung im Rahmen des vorliegenden Beispiels nicht völlig 
abwegig ist. 


Im Rahmen der angestellten Untersuchung wurde auf Basis der aus dem Trai- 
ning resultierenden Likelihood-Funktionen evaluiert, wie genau die Korrekt- 
heit des naiven Bayes’schen Klassifikators abnimmt, wenn man vor Durch- 
führung der Klassifikation mögliche Klassen aus Z gemäß bestimmter Regeln 
schrittweise entfernt. 


Bei Regel 1 wird eine Klasse z € Z entfernt, wenn für alle s € {1,...,S} gilt 
l.(d,|z) < €. Komplementär gesprochen wird eine Klasse z € Z also ge- 
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rade dann nicht entfernt, wenn für mindestens ein s € {1,...,S} gilt, dass 
l.(d,|z) > € ist. Diese Regel entspricht gerade der in Gleichung (6.6) an- 
gegebenen Vorgehensweise zur Bildung eines lokalen Kontexts (wenn man 
€ = 1/k setzt). 


Bei Regel 2 wird eine Klasse z € Z entfernt, wenn für alle s € {1,... ,S} gilt 
p(d,|z) < €. Komplementär gesprochen wird eine Klasse z € Z also gerade 
dann nicht entfernt, wenn für mindestens ein s € {1,...,S} die Beziehung 


P(d;|Z) > e gilt. 


Regel 1 und Regel 2 unterscheiden sich dadurch, dass bei Regel 2 die absoluten 
Werte von p(d,|z) für die Entscheidung herangezogen werden, während bei 
Regel 1 hierfür die Werte von p(d,|z) jeweils relativ zum von d am besten 
gestützten Wert betrachtet werden. Es sei angemerkt, dass auf die mit der 
Betrachtung der absoluten Werte von p(d,|z) verbundenen Problematiken, 
welche sich letztlich daraus ergeben, dass der Wert von p(d,|Z) recht gering 
für alle z € Z ausfallen kann, bereits in Abschnitt 3.4.3 hingewiesen wurde. 


Bei beiden Regeln wurde die angewandte Schranke € in kleinen, äquidistanten 
Schritten erhöht, konkret wurde für jedes € € {i/100 | i € {0,1,2, ..., 99}} eine 
Auswertung vorgenommen. 


Bei Regel 3 werden die zu entfernenden Klassen z € Z zufällig, d. h. auf Basis 
einer Gleichverteilung über der Menge der im jeweiligen Schritt verbliebenen 
Klassen, ausgewählt. 


Die Ergebnisse der Untersuchung für den Pendigits Datensatz sind in Abb. 6.1 
dargestellt. Bezüglich Regel 1 und Regel 2 setzt jeder der (runden bzw. qua- 
dratischen) Marker in der Grafik für einen bestimmten Wert der Schranke 
e E {i/100 | i € {0,1,2, ...,99} die Anzahl der durchschnittlich entfernten Klas- 
sen und den durchschnittlichen Prozentsatz korrekter Klassifikationen zuein- 
ander in Bezug. Wie aus Abb. 6.1 erkennbar ist, führt das Entfernen von mögli- 
chen Klassen aus Z gemäß Regel 2 immerhin noch zu einer deutlich höheren 
verbleibenden durchschnittlichen Korrektheit, als wenn die Klassen gemäß 
Regel 3 völlig zufällig aus Z entfernt werden. Jedoch liegt die verbleibende 
Korrektheit des naiven Bayes’schen Klassifikators auch bei Regel 2 deutlich 
unter der verbleibenden Korrektheit, welche resultiert, wenn man die Klassen 
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gemäß Regel 1, welche konsistent mit den Prinzipien statistischer Evidenz und 


den aus diesen im Rahmen der vorliegenden Arbeit abgeleiteten Vorgehens- 


weisen zur Festlegung eines lokalen Kontexts ist, entfernt. 
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Abbildung 6.1: Veränderung des Anteils korrekter Klassifikationen beim Pendigits Datensatz, 


wenn mögliche Klassen gemäß Regel 1, Regel 2 und Regel 3 entfernt werden. Die 
angegeben Werte sind wie im Text beschrieben gemittelt über 20 Testdurchläufe. 
Das rechte Diagramm stellt einen vergrößerten Ausschnitt von Teilen des linken 


Diagramms dar. 


Auch in den Fällen, in denen € schon bereits recht nahe bei Eins liegt, lässt Re- 


gel 1 nicht zu, dass ein extrem umfangreicher Anteil möglicher Klassen aus Z 


entfernt wird. Konkret werden für € = 0,99 im Schnitt nur circa 33,13 Prozent 


der möglichen Klassen aus Z entfernt, wodurch sich die durchschnittliche 


Korrektheit (von ursprünglich circa 87,81 Prozent) auf circa 86,40 Prozent 


(mit einer Standardabweichung von circa 0,64 Prozent) reduziert. Dieses 


Verhalten lässt sich damit erklären, dass mit S = 16 eine recht hohe Anzahl 


an (standardisierten) Likelihood-Funktionen vorausgewertet wurde. 
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Für € = 0,81 x ‘8/1/32 werden im Schnitt circa 14,96 Prozent der möglichen 
Klassen aus Z entfernt, wodurch sich die durchschnittliche Korrektheit auf 
circa 87,36 Prozent (mit einer Standardabweichung von circa 0,54 Prozent) re- 
duziert. Fire = 0,88 x 14/178 werden im Schnitt circa 19,70 Prozent der mög- 
lichen Klassen aus Z entfernt, wodurch sich die durchschnittliche Korrektheit 
auf circa 87,42 Prozent (mit einer Standardabweichung von circa 0,59 Prozent) 
reduziert. Diese konkrete Auswahl der betrachteten Werte für € korrespon- 
diert mit dem in Abschnitt 6.2.2, genauer nach Gleichung (6.7), vorgeschla- 
genen (auf Basis der im Rahmen der Arbeit angestellten Überlegungen sinn- 
voll erscheinenden) Vorgehen. Durch die Betrachtung gerade dieser Werte im 
Rahmen des vorliegenden Beispiels soll aber nicht der Anspruch erhoben wer- 
den, die Sinnhaftigkeit exakt dieser Festlegung anhand des Beispiels zu verifi- 
zieren. Diese beiden Aussage gelten gleichermaßen für weitere, nachfolgend 
betrachtete Werte der Form Vılk, in der T die Anzahl der ausgewerteten 
Quellen notiert. 


Ergebnisse der Untersuchung für den Letter Recognition Datensatz sind 
im Hinblick auf die für die Untersuchung wesentlichen Aspekte vergleich- 
bar mit denen für den Pendigits Datensatz. Konkret werden für € = 0,99 
im Schnitt hier circa 55,34 Prozent der möglichen Klassen aus Z entfernt, 
wodurch sich die durchschnittliche Korrektheit (von ursprünglich circa 
70,77 Prozent) auf circa 64,77 Prozent (mit einer Standardabweichung von 
circa 0,99 Prozent) reduziert. Für €e = 0,81 x '/1/32 werden im Schnitt 
circa 5,16 Prozent der möglichen Klassen aus Z entfernt, wodurch sich die 
durchschnittliche Korrektheit auf circa 70,71 Prozent (mit einer Standardab- 
weichung von circa 0,59 Prozent) reduziert. Für € = 0,88 x “/1/s werden im 
Schnitt circa 19,35 Prozent der möglichen Klassen aus Z entfernt, wodurch 
sich die durchschnittliche Korrektheit auf circa 69,89 Prozent (mit einer 
Standardabweichung von circa 0,66 Prozent) reduziert. 


Um zu demonstrieren, dass sich die Prinzipien statistischer Evidenz auch sinn- 
voll anwenden lassen, wenn zur Bestimmung des lokalen Kontexts eine ande- 
re (sinnvolle) probabilistische Repräsentation der vorliegenden Information 
verwendet wird als zur anschließenden Durchführung der eigentlichen lo- 
kalen Bayes’schen Fusion, und dass die Vorauswertung nur eines Teils ver- 
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fügbarer Information ein gangbarer Weg sein kann, wurde für den Pendigits 
Datensatz exemplarisch noch eine zweite Untersuchung angestellt. Bei die- 
sem Datensatz korrespondieren die Attribute mit (x,y)-Koordinaten handge- 
schriebenen Zahlen (genauer: den Ziffern 0 bis 9). Genauer korrespondiert 
d, mit einer x-Koordinate, wenn s ungerade ist, und mit einer y-Koordinate, 
wenn s gerade ist (s € {1, ... ,16}). 


Für die Untersuchung wurde auf Basis der Attribute d,, d; und d; exempla- 
risch ein neues Attribut dy, welches die Veränderungen der entsprechenden 
x-Koordinaten im Datensatz angibt, wie folgt bestimmt: 


, di <d; <d 
, di < d; und d; < d; 
, d; < dı und d; < d; 
> dı <d; < dı 


d, i= (6.12) 


w Ne O 


Dieses Attribut enthält also einen Teil der in Form von d4, d; und d; vorlie- 
genden Information, genauer hinsichtlich ihres Zusammenhangs. In analoger 
Weise wurde auf Basis der Attribute dz, dg und dg ein weiteres neues Attribut 
d, bestimmt. Weiter wurden die nachfolgenden beiden zusätzlichen Regeln, 
welche konzeptionell gesehen konsistent mit den Prinzipien statistischer Evi- 
denz und dem im Rahmen der vorliegenden Arbeit daraus abgeleiteten Vor- 
gehen für die lokale Bayes’sche Fusion sind, formuliert: 


Bei Regel 4 wird eine Klasse z € Z ignoriert, wenn gilt !(d,|z) < €. Komple- 
mentär gesprochen wird eine Klasse z € Z also gerade dann nicht ignoriert, 
wenn gilt, dass l,(d,|z) > € ist. 


Bei Regel 5 wird eine Klasse z € Z ignoriert, wenn l,(d,|z) < € und 
l.(d,|z) < € gelten. Komplementär gesprochen wird eine Klasse z € Z also 
gerade dann nicht ignoriert, wenn l,.(d.|z) > € oder l.,.(d,|z) > € ist. 


Wie bei Regel 1 und Regel 2 wurde auch bei Regel 4 und Regel 5 die jeweils 
angewandte Schranke e in kleinen, äquidistanten Schritten erhöht, konkret 
wurde wieder für jedes € € {i/100|i € {0,1,2,...,99}} eine Auswertung vor- 
genommen. Zur Bildung der für die Vorauswertung gemäß Regel 4 und Re- 
gel 5 benötigten standardisierten Likelihood-Funktionen wurden p(d,|z) und 
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p(d,|z) in den Trainingsdurchläufen jeweils mitbestimmt und dann entspre- 
chend auf einen Maximalwert von Eins skaliert. Die eigentliche (lokale) nai- 
ve Bayes’sche Klassifikation wurde nach der Anwendung von Regel 4 bzw. 
Regel 5 jeweils unverändert auf Basis der ursprünglichen probabilistischen 
Repräsentationen der vorliegenden Information, d.h. auf Basis von p(d,|z), 


se {1, ... ,S}, durchgeführt. 


In Abb. 6.2 sind die Ergebnisse, welche sich durch Anwendung von Regel 1, 
Regel 4 und Regel 5 ergeben, einander gegenübergestellt. Man erkennt, dass 
die Anwendung von Regel 4 und Regel 5 grundsätzlich Sinn ergibt. Sie ver- 
hindern zwar nicht, dass bei größeren, hier auch kaum realistischen Werten 
von € im Schnitt eine recht hohe Anzahl an möglichen Klassen aus Z ignoriert 
wird, was notwendigerweise dazu führt, dass die durchschnittliche Korrekt- 
heit des naiven Bayes’schen Klassifikators auch abnimmt. Solange dies noch 
nicht der Fall ist (d.h. für kleinere Werte von e), liefern Regel 4 und Regel 5 
jedoch passable Ergebnisse. 


Bei Regel 4 werden für €e = 0,04 = 1/32 im Schnitt circa 12,91 Prozent 
der möglichen Klassen aus Z entfernt, wodurch sich die durchschnittliche 
Korrektheit (von ursprünglich circa 87,81 Prozent) auf circa 87,78 Prozent 
(mit einer Standardabweichung von circa 0,58 Prozent) reduziert. Weiter 
werden für € = 0,13 & 1/8 im Schnitt circa 20,72 Prozent der möglichen 
Klassen aus Z entfernt, wodurch sich die durchschnittliche Korrektheit auf 
circa 87,45 Prozent (mit einer Standardabweichung von circa 0,62 Prozent) 
reduziert. 


Bei Regel 5 werden fiir € = 0,18 x 4/1/32 im Schnitt circa 11,61 Prozent der 
möglichen Klassen aus Z entfernt, wodurch sich die durchschnittliche Kor- 
rektheit (von ursprünglich circa 87,81 Prozent) auf circa 87,80 Prozent (mit 
einer Standardabweichung von circa 0,58 Prozent) reduziert. Weiter werden 
für e = 0,36 x Aus im Schnitt circa 17,71 Prozent der möglichen Klas- 
sen aus Z entfernt, wodurch sich die durchschnittliche Korrektheit auf circa 
86,78 Prozent (mit einer Standardabweichung von circa 0,79 Prozent) redu- 
ziert. 
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Abbildung 6.2: Veränderung des Anteils korrekter Klassifikationen beim Pendigits Datensatz, 
wenn mögliche Klassen gemäß Regel 1, Regel 4 und Regel 5 entfernt werden. Die 
angegeben Werte sind wie im Text beschrieben gemittelt über 20 Testdurchläu- 
fe. Die rechte Grafik stellt einen vergrößerten Ausschnitt eines Teils der linken 
Grafik dar. 


In Tabelle 6.1 sind die genannten Werte im Hinblick auf Regel 1, Regel 4 
und Regel 5 noch einmal einander gegenübergestellt. Es bezeichnet dabei T 
die Anzahl der ausgewerteten (zuvor im Text jeweils genauer genannten) 
Likelihood-Funktionen. Weiter bezeichnen v den durchschnittlichen Anteil 
der für den angegebenen Wert der angelegten Schranke e entfernten Klas- 
sen, u die durchschnittliche verbleibende Korrektheit des naiven Bayes’schen 
Klassifikators und o die korrespondierende Standardabweichung; diese An- 
gaben sind jeweils in Prozent und auf zwei Nachkommastellen gerundet. Die 
näherungsweise Angabe von e ist so zu verstehen, dass jeweils die Ergebnis- 
se für den entsprechend exakten oder (falls dieser nicht ausgewertet wurde) 
nächst größeren Wert aus {i/100|i € {0,1,2,...,99}} herangezogen wurden. 
Bei Regel 4 und Regel 5 wurde auf die Angabe der für € = 0,99 erzielten Werte 
bewusst verzichtet, da eine entsprechende Wahl von €, welche bereits schon 
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für den Fall T = 16 sehr hoch und damit diskutabel ist, in diesen beiden Fallen 
sicher nicht als sinnvoll zu erachten ist. 


Tabelle 6.1: Zusammenstellung der zuvor im Text bezüglich Regel 1, Regel 4 und Regel 5 ge- 
nannten Werte für den Pendigits Datensatz (|Z| = 10) und den Letter Recognition 


Datensatz (|Z| = 16). 


Pendigits | Pendigits | Pendigits | Letter Recognition 
Regel 4 Regel 5 Regel 1 Regel 1 
(T=1) (T=2) (T=16) (T=16) 
v=0 v=0 v=0 v=0 
e=0 H = 87,81 | u = 87,81 | u = 87,81 u = 70,77 
co = 0,58 o = 0,58 o = 0,58 o = 0,57 
v = 12,91 | v = 11,61 | v = 14,96 v = 5,16 
ex 4/1/32 | u = 87,78 | u = 87,80 | u = 87,36 H = 170,71 
o = 0,58 o = 0,58 o = 0,54 o = 0,56 
v = 20,72 | v = 17,71 | v = 19,70 v = 19,35 
ER V1/8 u = 87,45 | u = 86,78 | u = 87,42 u = 69,89 
o = 0,62 o = 0,79 o = 0,59 o = 0,66 
v = 33,31 v = 55,34 
€ = 0,99 N/A N/A H = 86,40 u = 64,77 
o = 0,64 co = 0,99 


Die in der Tabelle angegebenen Ergebnisse sollten u.a. aufgrund der doch 
überschaubaren Anzahl Klassen in den Datensätzen, der vereinfachenden An- 
nahme der bedingten Unabhängigkeit der Attribute gegeben die Klasse und 
der recht einfachen Umsetzung des naiven Bayes’schen Klassifikators sicher 
nicht überinterpretiert werden. Sie lassen jedoch gerade auch unter Berück- 
sichtigung der insgesamt auch für Regel 2 und Regel 3 erzielten Ergebnisse 
(vgl. insbesondere auch Abb. 6.1 und Abb. 6.2) die grundsätzliche Sinnhaftig- 
keit des Vorgehens auf Basis der Prinzipien statistischer Evidenz erkennen. 
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6.3 Informationstheoretische Betrachtung 


Informationstheoretische Prinzipien wurden in Abschnitt 3.5.1 bereits im Hin- 
blick auf die Aufgabe, einen vorliegenden Informationsstand in eine objektive 
probabilistische Repräsentation im Sinne der Degree-of-Belief-Interpretation 
von Wahrscheinlichkeit zu überführen, aufgegriffen. Bezüge zwischen der 
Bayes’schen Theorie und der Informationstheorie werden in der Fachlitera- 
tur auch darüber hinausgehend hergestellt und genutzt. Nachfolgend wer- 
den weitere, für die vorliegende Arbeit relevante Ansätze und Ergebnisse aus 
der Fachliteratur dargestellt und in Bezug gesetzt, um letztlich die Frage nach 
der Korrektheit der lokalen Bayes’schen Fusion aus informationstheoretischer 
Sicht zu beleuchten. 


Der Kern der resultierenden Ergebnisse für die lokale Bayes’sche Fusion wur- 
de samt komprimierter Zusammenstellung der erforderlichen Grundlagen 
zuvor in [San09a] und [San09c] veröffentlicht. Im vorliegenden Abschnitt 
werden diese Ergebnisse demgegenüber deutlich umfangreicher motiviert 
und auch deutlich umfangreicher in Bezug auf die sich ergebenden Schluss- 
folgerungen hinsichtlich der Wahl des lokalen Kontexts U C Z betrachtet. 
Während in den vorgenannten Veröffentlichungen die nachfolgend in Ab- 
schnitt 6.3.2 eingeführte, von Walker formulierte Minimierungsregel und 
zusätzlich (vollständig) alternativ das in Abschnitt 3.5.1 eingeführte Prinzip 
der Minimalen Information als Ausgangspunkt für die Untersuchungen 
gewählt wurden, fungiert in der vorliegenden Arbeit zwecks besserer An- 
schaulichkeit vor allem das im nachfolgenden Abschnitt 6.3.1 eingeführte 
Informationsverarbeitungsschema nach Zellner als Basis. Die von Walker 
formulierte Minimierungregel verdeutlicht dabei vor allem auch in unab- 
hängiger Weise zusätzlich die Stimmigkeit der Resultate. Das Prinzip der 
Minimalen Information wird (angewandt über Z) in die Argumentation 
miteinbezogen. Auf eine alternative, vollständige Herleitung der Ergebnisse 
auf Basis des Prinzips der Minimalen Information (welches dazu über Z x D 
angewandt werden muss) wird im Folgenden verzichtet, vor allem auch um 
den Umfang der Darstellung nicht ausufern zu lassen. 


194 


6.3 Informationstheoretische Betrachtung 


6.3.1 Informationsverarbeitungsschema nach Zellner 


Zellner zeigt in [Zel88] die Optimalität Bayes’scher Inferenz von einem infor- 
mationstheoretischen Standpunkt aus auf. Basis ist dabei das in Abb. 6.3 dar- 
gestellte Informationsverarbeitungsschema. Auf der linken Seite in Abb. 6.3 
stehen die in Abschnitt 3.4.2 eingeführten Komponenten eines Bayes’schen 
Modells, d.h. die A-Priori-Verteilung p(z) und die Likelihood-Funktion 
p(d|z). Zwecks Einheitlichkeit wird letztere hier und in den nachfolgenden 
Abschnitten (genauer: bis Gleichung (6.75) in Abschnitt 6.3.4.5) als normiert 
bezüglich d angenommen und durch p(d|z) statt durch I(d|z) notiert. 


Beim Informationsverarbeitungsschema wird angenommen, dass die Ein- 
gangsgrößen durch eine Regel zur Informationsverarbeitung prozessiert 
werden. Dadurch resultieren die auf der rechten Seite von Abb. 6.3 dar- 
gestellten Größen. Dabei ergibt sich p(d) in eindeutiger Weise aus der 
Verteilungsannahme {p(d|z)|z € Z} und der A-Priori-Verteilung p(z) zu 
p(d) = Jz p(d|z)p(z) dz. Die Ausgangsgröße r(z|d) stellt eine Wahrschein- 
lichkeitsverteilung über Z dar, welche sich abhängig von der angewandten 
Regel zur Informationsverarbeitung ergibt". 


Es sei angemerkt, dass in [Zel88] explizit die Abhängigkeit der A-Priori- 
Verteilung p(z) und damit auch der Größen r(z|d) und p(d) vom Vorwissen 
notiert wird. 


Ei = A - 
Be ae Bo 
größen: i größen: 

H——| Informations- — 
pt) verarbeitung ae 
p(d|z) p(d) 


Abbildung 6.3: Informationsverarbeitungsschema nach Zellner. Abbildung angelehnt an 
[Zel83]. 


1 In Abschnitt 6.3.1 und Abschnitt 6.3.2 sollen die Notationen r(z|d) und q(z|d) verdeutlichen, 
dass es sich um aus den Berechnungen resultierende Ausgangsgrößen handelt. 
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Unter Einnahme eines nach Durchführung der Informationsverarbeitung an- 
gesiedelten Standpunkts wird die in den Eingangs- und Ausgangsgrößen (er- 
wartungsgemäß) enthaltene Information in [Zel88] wie folgt quantifiziert: 


(Maß für die) Information in p(z): 

Exapllogp@] = | r2ld)logp(2) (6.13) 
(Maß für die) Information in p(d|z): 

Erellog p(d]z)] = i r(z|d)log p(d|z) dz , (6.14) 
(Maß für die) Information in r(z|d): 

Erza log r(z|d)] = [raw log r(z|d) dz , (6.15) 
(Maß fiir die) Information in p(d): 


Er\ollogp(d)] = | r(zld)iog p(d)az = tog pla). (616) 
zZ 


Die Regel zur Informationsverarbeitung in Abb. 6.3 ist gerade dann optimal, 
wenn die Wahrscheinlichkeitsverteilung r(z|d) so beschaffen ist, dass die aus 
der Anwendung der Regel zur Informationsverarbeitung resultierende Aus- 
gangsinformation so weit als möglich der in die Regel zur Informationsverar- 
beitung eingehenden Information entspricht. Das Verhältnis zwischen ausge- 
hender und eingehender Information sollte also nahezu Eins sein. 


Sofern möglich, d. h. falls eine entsprechende Regel zur Informationsverarbei- 
tung existiert, sollte die eingehende Information vollständig der ausgehenden 
Information entsprechen. In diesem Fall erfüllt die Regel zur Informationsver- 
arbeitung das in [Zel88] formulierte Prinzip der Informationserhaltung (im 
Englischen: Information Conservation Principle (ICP)). 


Existiert keine derartige optimale Regel zur Informationsverarbeitung, wel- 
che das Prinzip der Informationserhaltung erfüllt, so sollte man die bestmög- 
liche Regel wählen. Diese ist dadurch charakterisiert, dass das Verhältnis von 
ausgehender und eingehender Information möglichst Eins ist. Dabei wird in 
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[Zel88] verständlicherweise noch gefordert, dass die Regel zur Informations- 
verarbeitung im Ausgang nicht mehr Information liefern darf als im Eingang 
vorhanden ist. 


Gemäß [Zel88] muss die bestmögliche Regel zur Informationsverarbeitung 
letztlich so beschaffen sein, dass sie die Wahrscheinlichkeitsverteilung r(z|d) 
auf Z liefert, welche das Funktional 


F [ald] : = | j loe.glzjd)dz + tog Cd) 
Z 
= | g(zld)log plz) dz = f g(zld) log p(d|z)dz (6.17) 
VA VA 


- J alatogatala)az + tog pc) 
Zz 


(Maß für die) Information in den Ausgangsgrößen 


: | ENC Cee CORE 
Z 


(Maß für die) Information in den Eingangsgrößen 


(6.18) 
minimiert, d. h. 


r(z|d) = argmin F,[q(z|d)] (6.19) 
qzideBz 


wobei P, die Menge aller (wohldefinierten) Wahrscheinlichkeitsverteilungen 
auf Z bezeichnet. 


In [Zel88] wird durch Minimierung dieses Funktionals gezeigt, dass die best- 
mögliche Regel zur Informationsverarbeitung im Ausgang (neben p(d)) gera- 
de die Wahrscheinlichkeitsverteilung r(z|d), welche 


r(z|d) x p(d|z)p(z) (6.20) 


erfüllt, liefern muss. Die Wahrscheinlichkeitsverteilung r(z|d) muss also der 
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A-Posteriori-Verteilung p(z|d), welche bei der Bayes’schen Inferenz resul- 
tiert, entsprechen. Die bestmögliche Regel zur Informationsverarbeitung er- 
gibt sich somit gemäß dem Satz von Bayes (vgl. Gleichung (3.6)). Aufgrund 
der Tatsache, dass 


F,[p(z|d)] = 0 (6.21) 


gilt, ist dabei auch das Prinzip der Informationserhaltung erfüllt, d.h. die 
Bayes’sche Inferenz gewährleistet in dieser (informationstheoretischen) 
Hinsicht also eine optimale Informationsverarbeitung. In Abb. 6.4 ist das 
Informationsverarbeitungsschema aus Abb. 6.3 für diesen Fall dargestellt. 


Eingangs- Ausgangs- 
größen: größen: 
> Satz von Bayes = 
p(z) a p(zid) 
p(d|z) p(d) 


Abbildung 6.4: Informationsverarbeitung gemäß dem Satz von Bayes. 


Bemerkenswert an der im vorliegenden Abschnitt wiedergegebenen Formu- 
lierung Bayes’scher Inferenz als optimale Informationsverarbeitung ist vor 
allem auch, dass dieser Ansatz über die in [Zel88] aufgezeigte Optimalitats- 
aussage hinausgehend auch weitere Schlüsse im Hinblick auf die Funktions- 
weise Bayes’scher Inferenz ermöglicht. Vgl. hierzu insbesondere auch [Zel02]. 
Dadurch lassen sich dann insbesondere auch Möglichkeiten zur gezielten Ab- 
wandlung der Bayes’schen Inferenz ableiten. 


Im Kontext der Bayes’schen Fusion könnte vor allem auch ein entsprechend 
abgeleitetes Vorgehen zur gezielten Steuerung des Einflusses der Eingangs- 
größen interessant sein. Will man z.B. die Tatsache berücksichtigen, dass die 
A-Priori-Verteilung p(Z) nicht in optimaler Qualität bestimmt werden konnte 
und sie dementsprechend mit vermindertem Einfluss in die Bayes’sche Fusi- 
on einbringen, so lässt sich dies gemäß [Zel02] aus informationstheoretisch 
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optimaler Sicht umsetzen, indem man statt p(z) gerade p*(z) mit a € [0,1] 
als A-Priori-Verteilung in die Bayes’sche Fusion einbringt. Der Exponent a 
ist umso kleiner zu wählen, je geringer die Qualität von p(z) ist. Im Grenz- 
fall a = 0 wird p(z) überhaupt nicht berücksichtigt, im anderen Grenzfall 
æ = 1 geht p(z) wie üblich in die Bayes’sche Fusion ein. Eine analoge Aus- 
sage gilt im Hinblick auf die Likelihood-Funktion. Ihr Einfluss könnte also 
gleichermaßen mittels eines (anderen) Exponenten y € [0,1] gewichtet wer- 
den. Es liegt auf der Hand, dass dieses Vorgehen beim Vorliegen der bedingten 
Unabhängigkeit der (in d zusammengefassten) Informationsbeiträge d, gege- 
ben z (s € {1,...,S}) grundsätzlich auch auf den Fall eines sequentiellen Fu- 
sionsschemas gemäß Gleichung (3.25) erweitert werden könnte, indem man 
die individuellen Likelihood-Funktionen mit entsprechend geeignet gewähl- 
ten Exponenten y, € [0,1], s € {1, ... ,S}, versieht. 


6.3.2 Minimierungsregel nach Walker 


Walker stellt in [Wal06] dar, dass die bei der Bayes’schen Inferenz resultieren- 
de A-Posteriori-Verteilung p(z|d) sich gerade aus der folgenden Beziehung, 
welche von ihm als Minimierungsregel bezeichnet wird, ergibt: 


p(z|d) = argmin F,[g(z|d)] mit (6.22) 
q(zld)e Bz 


F,[q(z|d)] := -f q(z|d) log p(d|z) dz + KD[q(z|d),p(z)]. (6.23) 
Z 


Hierbei bezeichnet KD[q(z|d),p(z)] die bereits in Definition 3.6 eingeführte 
Kullback-Leibler-Divergenz, hier konkret von q(z|d) relativ zu p(z). Weiter 
bezeichnet 8, in Gleichung (6.22) die Menge aller Wahrscheinlichkeitsvertei- 
lungen auf Z mit KD[g(z|d),p(z)] < œ. 


Walker weist in [Wal06] darauf hin, dass sich die Gültigkeit der von ihm auf- 
gestellten Minimierungsregel aus dem in Zellner formulierten Prinzip der In- 
formationserhaltung ergibt. Vor allem aber wird in [Wal06] die Minimierungs- 
regel auch direkt, d.h. ohne Ausnutzung des Bezugs zu den Ergebnissen von 
Zellner, bewiesen und weitergehend interpretiert. Das Funktional F,[q(z|d)] 
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in Gleichung (6.23) besteht demnach aus zwei Termen, von denen der erste 
die Nähe von q(z|d) zur (hier bezüglich d normierten) Likelihood-Funktion 
forciert, während der zweite Term verhindert, dass q(z|d) zu stark von der 
A-Priori-Verteilung p(z) abweicht. 


Vergleicht man Gleichung (6.17) und Gleichung (6.23) genauer, so stellt man 
sofort fest, dass die von Zellner und Walker formulierten Funktionale in fol- 
gendem Zusammenhang stehen: 


F,[q(z|d)] = Fılq(z|d)] — log p(d) . (6.24) 


Aus Gleichung (6.21) ergibt sich für den Minimalwert des Funktionals 
F,[q(z|d)] gerade 


F,[p(2|d)] = -log p(d) . (6.25) 


Der Wert von F,[ p(z|d)] lässt sich damit aus informationstheoretischer Sicht 
auffassen als Informationszuwachs, der insgesamt resultiert, wenn d verfüg- 
bar wird. 


6.3.3 Von den Informationsbeiträgen gelieferte 
Information 


Ist q(z|d) die A-Posteriori-Verteilung p(z|d), so wird der zweite Term im von 
Walker gemäß Gleichung (6.23) festlegten Funktional F,[q(z|d)] zu 


Ipczyld] := KD[p(z|d),p(z)] (6.26) 
_ pld) 
= [ pedio SB dz (6.27) 
= Epa) [log p(zld)] — Epcziay [log p(Z)] - (6.28) 


Gemäß dem von Zellner formulierten Informationsverarbeitungsschema lie- 
fert Ip z)[d] für den Fall, dass r(z|d) identisch zu p(z|d) ist, gerade die Diffe- 
renz zwischen dem in Gleichung (6.15) angegebenen Maf fiir die Information, 
welche (erwartungsgemäß) in der Ausgangsgröße p(z|d) enthalten ist, und 
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dem in Gleichung (6.13) angegebenen Maß für die Information, welche (er- 
wartungsgemäß) in der Eingangsgröße p(z) enthalten ist. In anderen Worten 
stellt die Größe I,(zy[d] ein Maß für die Veränderung des bezüglich z vorlie- 
genden Informationsstands, welche sich durch die in Form der Anwendung 
des Satzes von Bayes erfolgende Informationsverarbeitung ergibt, dar. 


Die in der vorliegenden Arbeit als I,(z)[d] notierte Größe wird in der Fach- 
literatur zur Bayes’schen Theorie auch allgemein, d.h. unabhängig von dem 
in [Zel88] entwickelten Ansatz, aufgefasst als Maß für den Informationszu- 
wachs, welchen die konkret in Form von d vorliegenden Informationsbeiträ- 
ge in Bezug auf z € Z liefern, wenn der zuvor im Hinblick auf z verfügbare 
Informationsstand (in objektiver Weise) durch die A-Priori-Verteilung p(z) 
probabilistisch repräsentiert wird. Vgl. hierzu insbesondere [Ber04]. Diese In- 
terpretation ist auch konsistent zur in Abschnitt 3.5.1 angeführten Interpre- 
tation der Kullback-Leibler-Divergenz. 


Der Formulierung von Ip(zy[d] liegt ein vollständig post-experimenteller 
Standpunkt zugrunde. Die Menge an Information, welche d in Bezug auf 
z € Z liefert, wird im Hinblick auf den konkret vorliegenden Wert von d be- 
stimmt und die in Gleichung (6.28) vorgenommene Erwartungswertbildung 
erfolgt jeweils bezüglich der A-Posteriori-Verteilung p(z|d). 


Geht man einen Schritt zurück und untersucht, welche (Menge an) Informati- 
on ein Bayes’sches Experiment mit A-Priori-Verteilung p(z), in dem d gemäß 
p(d) verteilt ist, liefert, so ergibt sich durch zusätzliche Erwartungsbildung 
im Hinblick auf d folgendes Informationsmaß (vgl. [Ber04]): 


Jlz,d] := E palpo ld]] (6.29) 
-f p(d) Í p(zld)log ar dd (6.30) 

= | | p.d) log =F Pea dz zdd (6.31) 

= KD[p(z,d),p(z)p(d)] . (6.32) 
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Die in der vorliegenden Arbeit als J[z,d] notierte Größe wird in der Informati- 
onstheorie üblicherweise als Transinformation bezeichnet. Wie erkennbar aus 
Gleichung (6.32) stellt sie ein Maß für den statistischen Zusammenhang zwi- 
schen z und d dar. Sie gibt in diesem Sinne die (Menge an) Information, welche 
d erwartungsgemäß bezüglich z liefert, als auch die (Menge an) Informati- 
on, welche z wiederum erwartungsgemäß über d enthält, an (vgl. [Bey99]). 
Diese Interpretation kann man sich auch sehr gut verdeutlichen, wenn man 
Gleichung (6.29) aufgespalten nach den in I,,z)[d] enthaltenen Komponenten 
(gemäß Gleichung (6.28)) wiederum im Lichte des von Zellner formulierten 
Informationsverarbeitungsschemas betrachtet. 


Der Vollständigkeit halber soll kurz darauf eingegangen werden, dass man in 
der Fachliteratur auch eine alternative, auf [Lin56] zurückgehende Definition 
für die (Menge an) Information, welche konkret in Form von d vorliegende 
Informationsbeiträge in Bezug auf z € Z liefern, findet. Diese ist (statt durch 


In(zy[d]) gegeben durch 


Ipczyld] = Epea log p(z|d)] — Epczy[log p(z)] . (6.33) 


Anders als bei der Berechnung von I,z)[d] gemäß Gleichung (6.28) wird 
hier die in p(z) enthaltene Information also (trotz konkret angenomme- 
nem Wert für d) nicht a posteriori als E,z)q)[log p(z)] sondern a priori als 
Epcz)[log p(z)] bewertet. Man beachte, dass Ipcayldl damit gerade die Diffe- 
renz zwischen der Entropie der A-Priori-Verteilung p(z) und der Entropie 
der A-Posteriori-Verteilung p(z|d) angibt. 


Die in Gleichung (6.33) angegebene Festlegung ist für sich genommen konzep- 
tionell gesehen mit Schwierigkeiten verbunden. Wie in [Ber04] im Hinblick 
auf die Frage nach ihrer Eignung als Maß für die (Menge an) Information, 
welche konkret in Form von d vorliegende Informationsbeiträge in Bezug auf 
z € Z liefern, angemerkt und wie auch bereits in [Lin56] festgestellt ist sie 
auch nicht invariant unter Eins-zu-Eins-Transformationen von Z. 


Der Unterschied zwischen I,z)[d] und Ipcz) [d] erübrigt sich allerdings, wenn 
man (wie auch bereits in [Lin56] durchgeführt) die Erwartungsbildung gemäß 
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p(d) vornimmt, d.h. es gilt neben Gleichung (6.29) ebenfalls 


Jlz,d] = Epa lp fd] - (6.34) 


Siehe hierzu [Lin56] und insbesondere auch [Cov91]. 


6.3.4 Anwendung fiir die lokale Bayes’schen Fusion 


Ein globales Bayes’sches Modell sei in Form der Verteilungsklasse {p(d|z)|z € 
Z} und der A-Priori-Verteilung p(z) über Z gegeben. Weiter sei angenommen, 
dass die Bayes’sche Fusion wie in Abschnitt 5.2.3 beschrieben eingeschränkt 
auf einen lokalen Kontext U C Z durchgeführt werden soll. Diese Einschrän- 
kung entspricht der Annahme, dass sicher z € U gilt. 


6.3.4.1 A priori erfolgende Einschränkung auf den lokalen Kontext 


Beim Übergang vom globalen zum lokalen Bayes’schen Modell reduziert sich 
die angenommene Verteilungsklasse auf {p(d|z)|z € U} und die globale A- 
Priori-Verteilung p(z) wird gemäß Gleichung (5.9) durch die lokale A-Priori- 
Verteilung p(z|U) = p(z)/P(U) ersetzt. 


Nachfolgend wird, ähnlich zu einer in [Wil80] vorgenommen Anwendung des 
Prinzips der Minimalen Information, skizziert, dass das Vorgehen, die globale 
A-Priori-Verteilung p(z) durch die lokale A-Priori-Verteilung p(z|U) zu er- 
setzen, konsistent zum Prinzip der Minimalen Information ist. Hieraus ergibt 
sich dann insbesondere auch eine Möglichkeit, den Informationszuwachs be- 
züglich z, welcher aus der Annahme z € U resultiert, aus informationstheo- 
retischer Sicht stimmig zu quantifizieren. 


Ausgehend vom globalen Bayes’schen Modell, in dem der bezüglich z a prio- 
ri verfügbare Informationsstand durch die globale A-Priori-Verteilung p(z) 
repräsentiert wird, stellt die Annahme, dass sicher z € U gilt, neu im Hin- 
blick auf z verfügbar gewordene Information dar. Folgt man dem Prinzip der 
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Minimalen Information, so ist (gemäß" Gleichung (3.14)) die globale A-Priori- 
Verteilung p(z) so durch eine neue Wahrscheinlichkeitsverteilung pyı(Z) zu 
ersetzen, dass gilt 


Pya(Z) = arg min KD[q(z),p(z)] (6.35) 
q(zJEBz 


wobei P, die Menge aller Wahrscheinlichkeitsverteilungen auf Z bezeich- 
net, welche konsistent mit der neu hinzugekommenen Information, dass (ge- 
maf der Annahme) sicher z € U gilt, sind. Es entspricht P, dann gerade 
der Menge aller Wahrscheinlichkeitsverteilungen q(z), welche die Bedingung 
Sy UZ) dz = 1 erfüllen. Damit ergibt sich 


DUOPO = | a@)log 1 az (636) 
= l aale = dz (6.37) 
2 f q) log de (6.38) 
= de q(z) log oth dz — log P(U) . (6.39) 
= KDIg(2), PE|U)] - log PU). (6.40) 


Es gilt KD[q(z), p(z|U)] > 0 mit Gleichheit genau dann, wenn q(z) und 
p(z|U) übereinstimmen (vgl. z. B. [Cov91] hinsichtlich den Eigenschaften der 
Kullback-Leibler-Divergenz). D. h. für pyq(z) ergibt sich gerade die lokale A- 
Priori-Verteilung p(z|U). 


Im Einklang mit dem Prinzip der Minimalen Information lässt sich der in Glei- 
chung (6.40) dann noch verbleibende Term 


n 


In Gleichung (6.35) sind gegenüber Gleichung (3.14) q(Z) und p(z) bewusst vertauscht, da die 
globale A-Priori-Verteilung p(Z) bei der im vorliegenden Abschnitt vorgenommenen Anwen- 
dung des Prinzips der Minimalen Information anders als in Abschnitt 3.5.1 die vor Bekannt- 
werden der neu verfügbaren Information vorhandene Wahrscheinlichkeitsverteilung darstellt. 
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Ip) [U] =S log P(U) (6.41) 


auffassen als (Maß für den) Informationszuwachs bezüglich z € Z, welcher 
aus der Annahme, dass z € U gilt, resultiert (vgl. hierzu auch [Wil80]). Die 
Berechnung von I,z)[U] setzt voraus, dass die A-Priori-Wahrscheinlichkeit 
P(U) des lokalen Kontexts U bekannt ist. 


6.3.4.2 Durchführung der lokalen Bayes’schen Fusion 


Liegt ein lokales Bayes’sches Modell bereits in Form der angenommenen Ver- 
teilungsklasse {p(d|z)|z € U} und der lokalen A-Priori-Verteilung p(z|U) 
vor, so wird die lokale A-Priori-Verteilung p(z|U) durch Anwendung des 
Satzes von Bayes wie folgt in optimaler Weise in die lokale A-Posteriori- 
Verteilung p(z|d,U) überführt (vgl. Gleichung (5.10)): 


p(d|z)p(z|U) 


PIU) = 5 pape 


(6.42) 


In Abb. 6.5 ist dieser Prozess anhand des in Abschnitt 6.3.1 behandelten und in 
Abb. 6.4 fiir den Fall globaler Bayes’scher Inferenz bereits illustrierten Infor- 
mationsverarbeitungsschemas dargestellt. Die lokale Anwendung des Satzes 
von Bayes entspricht dabei gerade Gleichung (6.42). 


Eingangs- Ausgangs- 
größen: SIEBEN größen: 
o | =! *| peld,D) 
p(d|z) Ju P|z)p@|U) dz 


Abbildung 6.5: Lokale Informationsverarbeitung gemäß dem Satz von Bayes. 


Der Informationszuwachs, welchen die konkret in Form von d vorliegenden 
Informationsbeiträge in Bezug auf z € U liefern, ist bei der Anwendung des 
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Satzes von Bayes im lokalen Bayes’schen Modell gegeben durch (vgl. Glei- 
chung (6.26)) 


Ipcziunld] = KD[p(|d,U), p(Z|U)) . (6.43) 


Die Größe I,(zıu)[d] kann im lokalen Bayes’schen Modell anhand der lokalen 
A-Priori-Verteilung p(z|U) und der lokalen A-Posteriori-Verteilung p(z|d,U) 
berechnet werden. 


Fasst man den Informationszuwachs im Hinblick auf z € Z, welcher sich 
gemäß Gleichung (6.41) a priori durch die Annahme, dass z € U sicher gilt, 
ergibt, und den durch die Anwendung des Satzes von Bayes resultierenden 
Informationszuwachs bezüglich z € U gemäß Gleichung (6.43), welcher lokal 
gesehen durch das Bekanntwerden von d resultiert, zusammen, so ergibt sich 


Ipayld.U] := pe) lU] + Ipaunldl (6.44) 
= —log P(U) + i p(z|d,U) log eng dz (6.45) 
= Ji p(z|d,U) og PERR dz (6.46) 
= f p(z|d,U) log PERD dz (6.47) 
= KD[p(z|d,U),p(z)] . (6.48) 


6.3.4.3 A posteriori erfolgende Einschränkung auf den lokalen 
Kontext 


Nimmt man wie in nachfolgender Abb. 6.6 dargestellt im in Abb. 6.3 darge- 
stellten Informationsverarbeitungsschema an, dass die Ausgangsgröße r(z|d) 
gerade die lokale A-Posteriori-Verteilung p(z|d,U) ist, so ist die Regel zur In- 
formationsverarbeitung nicht optimal. 


206 


6.3 Informationstheoretische Betrachtung 


ni á A 3 
Pi Regel zur en 
größen: ee 

— Informations- — 
Be) verarbeitung p(zld,U) 
p(d|z) p(d) 


Abbildung 6.6: Globale Sicht auf die Informationsverarbeitung im lokalen Bayes’schen Modell. 


Wertet man das von Zellner gemäß Gleichung (6.18) formulierte Funktional 
für diesen Fall aus, so ergibt sich 


F,[p(z|d,U)] = | p(Z|d,U) log p(z|d,U) dz + log p(d) 
VA 


i I p(z|d,U)[log p(z) + log p(dlz)] dz (6.49) 
zZ 

í p(z|d,U)p(d) 

= [ peld.v 108 = pape). (6.50) 

= KD[p(z|d,U),p(z|d)] (6.51) 

=: Iza) LU] ; (6.52) 


Konsistent zum in Abschnitt 6.3.4.1 bereits auf die a priori vorliegende Si- 
tuation angewandten Prinzip der Minimalen Information lässt sich Iy(zjay[U] 
auffassen als Zuwachs an Information bezüglich z € Z, der sich a posteriori 
gesehen durch die Annahme, dass sicher z € U gilt, ergibt. 


Gemäß Gleichung (5.11) ist p(z|d,U) = p(z|d)/P(U|d), d.h. es ergibt sich 


p(zld) 
P(U|d) 


Ip¢ziay LU] = KD pela] = — log P(U|d) . (6.53) 


Die Größe Ip(z\q)[U] ist im lokalen Bayes’schen Modell offensichtlich nicht 
berechenbar. 
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6.3.4.4 Alternative Betrachtung 


An dieser Stelle ist es interessant, noch einmal einen Blick auf das von Walker 
gemäß Gleichung (6.23) formulierte Funktional zu werfen, um zu sehen, dass 
sich die Ergebnisse aus Abschnitt 6.3.4.2 und Abschnitt 6.3.4.3 auch unabhän- 
gig von Zellner’s Ansatz direkt hieraus ableiten lassen. 


Wertet man Gleichung (6.23) von einem globalen Gesichtspunkt für die lokale 
A-Posteriori-Verteilung p(z|d,U) aus, so ergibt sich 


F,[p(z|d,U)] (6.54) 

=— [ peav) log p(d|z) dz + KD[p(z|d,U),p(z)] (6.55) 
Z 

=- f p(z|d,U) log p(d|z)dz + i p(z|d,U) log BILM) dz (6.56) 
U U p(z) 

zen p(dlz) p(z) 

Kate p(z|d) p(d) 

= p(z\d,U) log Dee) dz (6.59) 

= — log P(U|d) - log p(d) . (6.60) 


Da gemäß Gleichung (6.25) gilt, dass F,[p(z|d)] = — log p(d) ist, ergibt sich 
F,[p(z|d,U)] — F,[p(z|d)] = —log P(U |d) . (6.61) 
Man erhilt also 
F,[p(z|d,U)] — F,[p(z|d)] = KD[p(z|d,U),p(Z|d)] = IpczjaylU] - (6.62) 


Wahlt man statt der globalen A-Posteriori-Verteilung p(z|d) die lokale A- 
Posteriori-Verteilung p(z|d,U), so erhöht sich also der Wert des von Walker 
formulierten Funktionals gerade um den Informationsgewinn, der sich a pos- 
teriori aus dem Bekanntwerden der Tatsache, dass z € U gilt, ergibt. 
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Wertet man Gleichung (6.23) für die lokale A-Posteriori-Verteilung p(z|U,d) 
dagegen unter den im lokalen Bayes’schen Modell gelten Annahmen aus, so 
ergibt sich mit Gleichung (6.42) ein anderer Wert für F,[ p(z|d,U)]: 


F,[p(Z|d,U)] = — log | | p(d|z)p(z|U) az) . (6.63) 
U 
Der Wert des Funktionals verändert sich gegenüber der für die globale 


Bayes’sche Fusion vorliegenden Situation, d.h. gegenüber F,[p(z|d)], hier 
also wie folgt: 


F,[p(z|d,U)] — Falp@zla)] (6.64) 

= — log (f p(d|z)p(z|U) az) + log p(d) (6.65) 
U 

sige | OL dz (6.66) 
me p(d|z)p(z) 
= le f Da)rıw) dz (6.67) 
En p(zld) 
= oe |, PW) dz (6.68) 
= — log P(U |d) + log P(U) (6.69) 
= KD[p(z|d,U),p(z|d)] — KD[ p(@|U),p()] (6.70) 
= In¢ziay LU] = Iz) LU] 5 (6.71) 


Gegenüber Gleichung (6.62) verringert sich diese Differenz also um den In- 
formationszuwachs bezüglich z € Z, welcher a priori aus der Annahme, dass 
z E€ U gilt, resultiert (vgl. Gleichung (6.41)). 


Weiterhin gelten die in Gleichung (6.44) bis Gleichung (6.48) durchgeführten 
Berechnungen, so dass sich auch die Gleichheit 


Ip) [d,U] = Ip LU] F Incziuyla] = KD[p(z|d,U), p(z)] (6.72) 


ergibt. 
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Dadurch, dass F,[p(z|d)] aus informationstheoretischer Sicht den Informati- 
onszuwachs, der insgesamt resultiert, wenn d verfügbar wird, angibt, lassen 
sich Gleichung (6.62) und Gleichung (6.71) auch so auffassen, dass sich dieser 
Wert durch die Tatsache, dass man die globale A-Posteriori-Verteilung p(z|d) 
durch die lokale A-Posteriori-Verteilung p(z|d,U) ersetzt, um Ipczjq)[U] 
bzw. IpczjaylU] — Ipcz)[U] verringert, je nachdem ob man die Annahme 
z € U als gegeben nimmt (Fall von Gleichung (6.71)) oder nicht (Fall von 
Gleichung (6.62)). 


6.3.4.5 Zusammenfassende Betrachtung 


Abb. 6.7 fasst die in Abschnitt 6.3.4.1 bis Abschnitt 6.3.4.3 hergeleiteten Be- 
züge, welche aus informationstheoretischer Sicht zwischen einem globalen 
Bayes’schen Modell und einem lokalen Bayes’schen Modell, welches aus ers- 
terem durch Einschränkung auf einen lokalen Kontext U C Z resultiert, 
zusammen. Dabei ist jeweils farblich markiert, inwieweit die Kenntnis der 
A-Priori-Wahrscheinlichkeit P(U) und der A-Posteriori-Wahrscheinlichkeit 
P(U|d) des lokalen Kontexts U zur Berechnung der angegebenen informati- 
onstheoretischen Größen benötigt wird. 


è Globale Bayes’sche 
U] Bi) Fusion 
Ipczy[U] Ipa) [U] e Lokale Bayes’ sche 
Fusion 
p(z|d,U) e P(U) bekannt 


Ipzjuy ld] e P(U|d) bekannt 


Abbildung 6.7: Schematische Darstellung der Bezüge zwischen einem globalen Bayes’schen 
Modell und einem lokalen Bayes’schen Modell, welches aus ersterem durch Ein- 
schränkung auf einen lokalen Kontext U C Z resultiert. 
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Ist die globale A-Priori-Wahrscheinlichkeit P(U) des lokalen Kontexts U be- 
kannt, so kann man zusätzlich den Informationszuwachs bezüglich z € Z, 
welcher a priori aus der Annahme, dass z € U gilt, resultiert, berechnen. 
Ebenso kann man in diesem Fall zusätzlich den gemeinsamen Informations- 
zuwachs bezüglich z € Z, welcher gleichzeitig durch diese Annahme und das 
Bekanntwerden von d resultiert, berechnen. 


Zur Berechnung des Zuwachses an Information bezüglich z € Z, der a poste- 
riori gesehen durch die Annahme, dass sicher z € U gilt, resultiert, wird je- 
doch die Kenntnis der globalen A-Posteriori-Wahrscheinlichkeit P(U |d) des 
lokalen Kontexts U benötigt. Die vorangegangene Darstellung, insbesonde- 
re Abschnitt 6.3.4.3, hat verdeutlicht, dass man letztlich gerade diese Größe 
benötigen würde, um die Korrektheit (im Sinne von Abschnitt 6.1) lokaler 
Bayes’scher Modelle im Hinblick auf die Wahl des lokalen Kontexts U aus 
informationstheoretischer Sicht tatsächlich exakt quantifizieren zu können. 


Die globale A-Posteriori-Wahrscheinlichkeit P(U|d) des lokalen Kontexts U 
gibt gerade an, wie wahrscheinlich es global gesehen ist, dass der „wahre“ 
Wert von z im lokalen Kontext U enthalten ist. Es ist letztlich nicht verwun- 
derlich, dass diese Größe nicht bekannt ist, wenn die lokale Bayes’sche Fusion 
wie in Abschnitt 5.2.3 beschrieben eingeschränkt auf den lokalen Kontext U 
durchgeführt wird. 


Genauer gilt 


PU = Fay POTD T 
(Ras) T 
4 
j ( ad Roe) (6.75) 
j ( - eae (6.76) 
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_ ( _ folaldle) p@) = 
Fy ale) p@) az 


Das Analogon zu Gleichung (6.74) und Gleichung (6.76) fiir den Fall eines 
statistischen Modells mit zwei exklusiven, sich ausschließenden Hypothesen 


(6.77) 


wurde in [Blu11] formuliert. 


Sind die Informationsbeiträge bedingt unabhängig gegeben z, so gilt außer- 
dem 


S Teas k(dslz) p(z)dz 


Aus Gleichung (6.77) und Gleichung (6.78) lässt sich erkennen, dass die in Ab- 
schnitt 6.2.2 aus den Prinzipien statistischer Evidenz abgeleitete Vorgehens- 


P(U|d) = v + (6.78) 


weise zur Festlegung des lokalen Kontexts U, welche grob gesagt darin be- 
steht, diesen durch Anlegen geeigneter Schranken an die standardisierte(n) 
Likelihood-Funktion(en) 1,,(d|z) bzw. I,.(d,|z) zu bestimmen, grundsätzlich 
Sinn macht. Dieses Vorgehen kann wesentlich dazu beitragen, dass bei dem in 
Gleichung (6.77) bzw. Gleichung (6.78) jeweils angegebenen Bruch der Zäh- 
ler möglichst klein und der Nenner möglichst groß ausfällt, d.h. dass Glei- 
chung (6.77) bzw. Gleichung (6.78) insgesamt möglichst nahe bei Eins liegen. 
Man erkennt ebenfalls die Sinnhaftigkeit der am Schluss von Abschnitt 6.2.2 
vorgeschlagenen Vorgehensweise, bei der Vorauswertung der Informations- 
beiträge ggf. auch (durch eine entsprechende technische Ummodellierung) 
das in Form der A-Priori-Verteilung p(z) vorliegende Vorwissen mitzuberück- 
sichtigen. 


Ebenfalls erkennbar aus Gleichung (6.77) und Gleichung (6.78) wird eine wei- 
tere grundsätzliche Tatsache in Bezug auf die lokale Bayes’sche Fusion, wel- 
che eingeschränkt auf einen lokalen Kontext U C Z erfolgt: Ist der Umfang 
des Komplements U des lokalen Kontexts U recht hoch im Vergleich zum 
Umfang des lokalen Kontexts selbst, was man ja anstreben mag, um den Auf- 
wand der eigentlichen lokalen Bayes’schen Fusion möglichst gering zu hal- 
ten, so kann auch bei noch so guter Wahl des lokalen Kontexts U dessen A- 


212 


6.3 Informationstheoretische Betrachtung 


Posteriori-Wahrscheinlichkeit P(U|d) möglicherweise deutlich ungleich Eins 
ausfallen. Dies bedeutet insbesondere auch, dass sich in diesem Fall die in 
Abschnitt 5.2.3.3 dargestellte Schwierigkeit, dass Wahrscheinlichkeitsaussa- 
gen im lokalen Bayes’schen Modell Überschätzungen der tatsächlichen (glo- 
balen) Wahrscheinlichkeitsaussagen darstellen, nicht beliebig gut umgehen 
lässt. Gerade auch deshalb ist es sinnvoll, die Güte lokaler Bayes’scher Mo- 
delle (auch) von einem pre-experimentellen Standpunkt aus zu betrachten. 


Dieser pre-experimentelle Standpunkt lässt sich wie in Abschnitt 6.2 darge- 
stellt durch die Ausnutzung der Prinzipien statistischer Evidenz, genauer auf 
Basis der Betrachtung der Wahrscheinlichkeit für irreführende statistische 
Evidenz, erreichen. Diese Wahrscheinlichkeit bildet sich unabhängig von ih- 
rem von einem post-experimentellen Standpunkt und unter Berücksichtigung 
von evtl. zusätzlich vorhandenem Vorwissen formulierten Pendant, welches 
hier gerade der A-Posteriori-Wahrscheinlichkeit P(U|d) des lokalen Kontexts 
U entspricht. Vgl. hierzu insbesondere auch [Blu11]. Es sei angemerkt, dass 
das in Gleichung (6.29) in Form der Transinformation formulierte Maß für 
die Menge an Information, welche ein Bayes’sches Experiment mit A-Priori- 
Verteilung p(z), in dem d gemäß p(d) verteilt ist, erwartungsgemäß liefert, 
keine solche Trennung abbildet. Hier wird gewissermaßen die (letztlich ande- 
re) Zielsetzung verfolgt, von einem pre-experimentellen Standpunkt aus voll- 
ständig auf die a posteriori vorliegende Situation zu schließen. 


Man beachte weiterhin, dass der in Abschnitt 5.2.5 angeführte Vorschlag, in 
Folgearbeiten eine Weiterentwicklung der in der vorliegenden Arbeit erarbei- 
teten Ansätze zur lokalen Bayes’schen Fusion vorzunehmen, indem man diese 
mit dem in Abschnitt 4.2.1 behandelten Prinzip konjugierter Verteilungsfami- 
lien bzw. mit den in Abschnitt 4.2.2 und Abschnitt 4.2.3 vorgestellten Verfah- 
ren zur Approximation der A-Posteriori-Verteilung p(z|d) bzw. von Kenn- 
größen derselben kombiniert, gerade auch vor dem Hintergrund der Tatsa- 
che, dass man möglicherweise den Umfang des Komplements Ü des lokalen 
Kontexts U nicht beliebig gering ausfallen lassen möchte, als zielführend zu 
erachten ist. Dies gilt gerade auch bei einer verteilten Umsetzung der lokalen 
Bayes’schen Fusion. So ist es insbesondere zu erwarten, dass sich die im lo- 
kalen Bayes’schen Modell benötigten probabilistischen Größen deutlich bes- 
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ser durch überschaubare konjugierte Verteilungsfamilien approximieren las- 
sen als ihre Pendants im globalen Bayes’schen Modell. Im Erfolgsfall redu- 
ziert sich dann die lokale Bayes’sche Fusion auf die analytische Verknüpfung 
einer moderaten Anzahl an Verteilungsparametern. Bei der Umsetzung ent- 
sprechender Ansätze könnte man auch versuchen, gezielt eine möglichst gute 
Approximation der globalen A-Posteriori-Wahrscheinlichkeit P(U|d) des lo- 
kalen Kontexts U anzustreben, z.B. unter Zuhilfenahme von Ansätzen zur 
Bayes’schen Robustheitsanalyse (siehe hierzu z.B. [Ins00]). 


Abschließend sei noch angemerkt, dass in Abschnitt 7.2 eine Abschätzung 
für die A-Posteriori-Wahrscheinlichkeit P(U |d) des lokalen Kontexts U her- 
geleitet wird, welche unter gewissen Zusatzannahmen auf Basis der auf U 
eingeschränkten lokalen Bayes’schen Fusion berechnet werden kann. 
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7.1 Einführung 


Die aus der lokalen Bayes’schen Fusion resultierende lokale A-Posteriori- 
Verteilung stellt partielle Information im Hinblick auf die globale A- 
Posteriori-Verteilung p(z|d) dar. Dies lässt sich so auffassen, dass sie letztlich 
eine Menge von möglichen globalen A-Posteriori-Verteilungen über Z fest- 
legt. Im vorliegenden Kapitel wird im Hinblick auf die lokale Bayes’sche 
Fusion, welche wie in Abschnitt 5.2.3 beschrieben durch Einschränkung auf 
den lokalen Kontext U erfolgt, untersucht, wie sich das in Form der auf U ein- 
geschränkten lokalen A-Posteriori-Verteilung p(z|d,U) ergebende Fusions- 
resultat auf Basis dieses Gedankens und unter zusätzlicher Verwendung von 
Information darüber, wie der lokale Kontext U gebildet wurde, expliziter als 
in Abschnitt 5.2.3 in Bezug zum in Form der globalen A-Posteriori-Verteilung 
p(z|d) resultierenden Resultat der globalen Bayes’schen Fusion setzen und 
auf dieser Basis auch zur Ableitung weiterführender Entscheidungen nutzen 
lässt. 


Als erster Schritt hierzu wird, vor allem auch unter Berücksichtigung 
der aus Kapitel 6 resultierenden Erkenntnisse hinsichtlich mathemati- 
scher Kriterien zur Wahl des lokalen Kontexts U, in Abschnitt 7.2 ein 
Wahrscheinlichkeitsintervall-Schema für die globalen A-Posteriori-Wahr- 
scheinlichkeiten von Ereignissen hergeleitet. Die globale A-Posteriori-Ver- 
teilung p(z|d) und anhand von ihr berechnete globale A-Posteriori-Wahr- 
scheinlichkeiten von Ereignissen verkörpern gerade die Tatsache, dass in 
der Regel aufgrund der auch nach der Durchführung der Informationsfusion 
noch vorhandenen Restunsicherheit nicht zweifelsfrei auf den „wahren“ Wert 
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der durch z verkörperten Größen des Interesses zurückgeschlossen werden 
kann (vgl. auch Abschnitt 3.2). Das Wahrscheinlichkeitsintervall-Schema 
repräsentiert in expliziter und nicht probabilistischer Weise die aufgrund 
der Einschränkung auf den lokalen Kontext U a posteriori zusätzlich noch 
verbleibende Unsicherheit in Bezug auf z. Dies geschieht unter Berücksich- 
tigung vorhandener Zusatzinformation im Hinblick auf die Festlegung des 
lokalen Kontexts U. Wie vor allem auch anhand eines Beispiels illustriert 
werden wird, kann das Wahrscheinlichkeitsintervall-Schema dadurch dazu 
beitragen, in der Praxis einen möglichst intuitiven Überblick über die auf 
Basis der lokalen Bayes’schen Fusion erzielten Erkenntnisse hinsichtlich der 
globalen A-Posteriori-Wahrscheinlichkeiten von Ereignissen zu erhalten und 
so besser feststellen zu können, ob die im Rahmen der lokalen Bayes’schen 
Fusion erzielten Resultate einen ausreichend guten Informationsstand im 
Hinblick auf z darstellen. Ist dies nicht der Fall, so könnte man sich ent- 
schließen, die lokale Bayes’sche Fusion z. B. durch Einbeziehung zusätzlicher 
Informationsquellen oder durch Ausweitung des lokal betrachteten Anteils 
von Z fortzuführen. 


Ist in einer vorliegenden Fusionsaufgabe letztlich nur der final resultieren- 
de Informationsstand im Hinblick auf z von Interesse, d.h. soll die beschrie- 
bene Trennung der Unsicherheiten unterschiedlicher Herkunft nicht explizit 
weiter genutzt werden, so macht es gerade im Hinblick auf die Allgemein- 
gültigkeit der Degree-of-Belief-Interpretation von Wahrscheinlichkeit (vgl. 
Abschnitt 3.3.2.2) Sinn, diese Trennung aufzuheben und eine eindeutige A- 
Posteriori-Wahrscheinlichkeitsverteilung zu bestimmen, welche den insge- 
samt vorliegenden Informationsstand (auch unter Berücksichtigung der In- 
formation darüber, wie der lokale Kontext gebildet wurde) in objektiver Wei- 
se ausschließlich probabilistisch repräsentiert. Dies ist das Thema von Ab- 
schnitt 7.3, in dem zu diesem Zweck das in Abschnitt 3.5.1 eingeführte Prinzip 
der Maximalen Entropie angewandt und hinsichtlich seiner Arbeitsweise spe- 
ziell in diesem Fall genauer untersucht wird. Insbesondere wird dabei durch 
analytische Lösung des mit der Anwendung des Prinzips der Maximalen En- 
tropie korrespondierenden Optimierungsproblems eine geschlossene Lösung 
für die resultierende eindeutige (Maximum-Entropie) A-Posteriori-Verteilung 
hergeleitet werden. 
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In der statistischen Entscheidungstheorie ist neben der Weiterentwicklung 
des Informationsstands bezüglich der Größen des Interesses auch noch re- 
levant, welche Konsequenzen darauf basierende Entscheidungen nach sich 
ziehen. Dadurch lässt sich dann bestmöglich eine bestimmte Aktion aus einer 
Menge von möglichen Aktionen auswählen. Die Bayes’sche Theorie zeichnet 
sich dadurch aus, dass sie konsistent mit der statistischen Entscheidungs- 
theorie ist (vgl. z.B. [Ber85] oder [Ber04]). Die in Abschnitt 7.3 adressierte 
Festlegung einer eindeutigen (Maximum-Entropie) A-Posteriori-Verteilung 
entspricht letztlich einer bestimmten, konkreten Entscheidung. Es ist i. A. 
nicht sinnvoll, eine derartige Entscheidung vorzusehen, wenn das Ergebnis 
der Bayes’schen Fusion nachgelagert zur Lösung eines Entscheidungspro- 
blems im Sinne der statistischen Entscheidungstheorie verwendet werden 
soll, denn in diesem Fall würden zwei harte Entscheidungen unabhängig von- 
einander getroffen werden. Dementsprechend wird in Abschnitt 7.4 unter- 
sucht, wie genau man das Wahrscheinlichkeitsintervall-Schema methodisch 
gesehen direkt in die Lösung eines Entscheidungsproblems einbringen kann 
und welche Schlüsse auf dieser Basis möglich sind. Wie aufgezeigt werden 
wird, ist es dabei zielführend, das korrespondierende Entscheidungsproblem 
unter partieller Information auf ein spezielleres Entscheidungsproblem unter 
sog. linearer partieller Information (LPI) zu überführen, und es werden auf 
dieser Basis konkrete Entscheidungskriterien abgeleitet. 


7.2 Wahrscheinlichkeitsintervall-Schema 


Der vorliegende Abschnitt fasst Ergebnisse aus dem bisherigen Verlauf der 
Arbeit zusammen und entwickelt diese in Hinblick auf die Zielsetzung des 
vorliegenden Kapitels gezielt weiter. Die entsprechenden Anteile wurden zu- 
vor in ähnlicher Form als Teil der Veröffentlichungen [San09a], [San10b] und 
[San14] publiziert. 


Der in Abschnitt 5.2.3 beschriebene Übergang von einem globalen zu einem 
lokalen Bayes’schen Modell durch die Annahme, dass z € U sicher gilt, be- 
deutet aus globaler Sicht, dass allen Ereignissen A C U a priori und a pos- 
teriori die Wahrscheinlichkeit Null zugeordnet wird. Durch das Bedingen auf 
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den lokalen Kontext U wird die Wahrscheinlichkeitsmasse, welche im globa- 
len Bayes’schen Modell auf U liegt, beim Übergang zum lokalen Bayes’schen 
Modell auf U umverteilt. Die Umsetzung dieses Vorgehens ist notwendig, um 
wieder ein aus mathematischer Hinsicht valides Bayes’sches Modell zu er- 
halten und so letztlich auch das gesamte Spektrum der durch die Bayes’sche 
Theorie bereitgestellten Konzepte und Methoden verfügbar zu haben. 


Wie bereits in Abschnitt 5.2.3.3 dargestellt wurde, erhöht sich dadurch die 
Wahrscheinlichkeit von Ereignissen A C U a priori um den Faktor 1/P(U) 
und a posteriori um den Faktor 1/P(U|d). Insgesamt gesehen gilt a posteriori 
für ein Ereignis A C Z: 


P(Ald,U) = Í p(z|d,U) dz (7.1) 
A 
mit 
p(zld) 
, fllszeU, 
p@ld,u)=) Play’? “7 (7.2) 
0, falsz U. 


Gleichung (7.2) ergibt sich aus Satz 5.2. Anders als dort wird p(z|d,U) hier je- 
doch als Wahrscheinlichkeitsverteilung auf Z statt nur auf U aufgefasst. Dies 
ist möglich, da man wie in Abschnitt 5.2.3.1 beschrieben sowohl (U,Z)y) als 
auch (Z,2) als den dem zugehörigen Wahrscheinlichkeitsmaß P(-|U) zugrun- 
deliegenden messbaren Raum auffassen kann. 


Insbesondere gilt also für Ereignisse AC U 


P(Ald) = P(Ald,U)P(U]|d) (7.3) 
< P(Ald,U) (7.4) 


und für Ereignisse A C U 


P(Ald) <1—P(U|d). (7.5) 
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Weiter gilt wie in Gleichung (5.20) dargestellt für Ereignisse A, B CU: 


P(Ald,U) _ P(Ald) _ 


Es sei das Ereignis B C U beliebig aber fest gewählt. Nimmt man an, dass 
die (im lokalen Bayes’schen Modell unbekannte) globale A-Posteriori- 
Wahrscheinlichkeit P(B|d) von B einen bestimmten Wert hat, so er- 
gibt sich aus Gleichung (7.6) gerade der Wert der globalen A-Posteriori- 
Wahrscheinlichkeit P(A|d) für jedes andere Ereignis A C U in eindeutiger 
Weise als 


P(Ald) = o(A,B)P(Bld) . (7.7) 


Der Faktor 0(A,B) lässt sich dabei im lokalen Bayes’schen Modell berechnen. 


Wurde der lokale Kontext U so festgelegt, dass er alle möglichen Werte z € Z 
mit I(d|z) > ô enthält, was z.B. der Fall ist, wenn U wie in Abschnitt 6.2.2 
beschrieben durch Ansetzen einer unteren Schranke an die standardisierte 
Likelihood-Funktion festgelegt wird, so lässt sich die globale A-Posteriori- 
Wahrscheinlichkeit P(U|d) des lokalen Kontexts U wie folgt abschätzen: 


Satz 7.1. Aus der Bedingung I(d|z) < 6 für alle z € U ergibt sich 


Ju Kalz)p(ziU) dz 


Ju Kdlz)p(z|U) dz + 6 Ea = 1) 


1 > P(U|d) > =: $. (7.8) 


Beweis. Da P(U|d) eine Wahrscheinlichkeit darstellt, ist gilt 1 > P(U|d) tri- 
vialerweise. 


Die untere Schranke fiir P(U|d) lasst sich im Wesentlichen durch Anwendung 
des Satzes von Bayes (vgl. Gleichung (3.5)) und unter Ausnutzung der zusätz- 
lich für z € U geltenden Beziehung p(z) = p(z|U)P(U) (vgl. Gleichung (5.9)) 


herleiten: 
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P(U|d) = f p(zld) dz (7.9) 
U 
_ Sy p(dIz)p(z) dz 
= pd) (7.10) 
S Ju p(d|z)p(z) dz wait) 
~ Jy p(diz)p(z)dz + fg p(d|z)p(z) dz 
_ Sy Kalz)p(z) dz Gia 
Sy diz)p(z) dz + fo ld|z)p(z) dz l 
Sy Kdlz)p(z) dz 548) 


~ Sy Ud|z)p(zZ) dz + 6 fg p(z) dz 
Sy Kdlz)p(z) dz 


= 7 ldep@a +50 =P 7.14) 
u Ju Ud|z)p(2|U)P(U) dz en 
Su Kdlz)p(z|U)P(U) dz + 6(1 — P(U)) : 

Jy Ud|z)p(2|U) dz m 


5 Sir Kd|z)p(z|U) dz + er Zi 


Die in Gleichung (7.8) angegebene untere Schranke £ für die A-Posteriori- 
Wahrscheinlichkeit P(U|d) des lokalen Kontexts U kann auf Basis des lokalen 
Bayes’schen Modells bestimmt werden, wenn neben der an die Likelihood- 
Funktion angelegten Schranke 6 die A-Priori-Wahrscheinlichkeit P(U) des 
lokalen Kontext bekannt ist. Ist Letzteres nicht der Fall, es aber möglich, für 
ein geeignetes a € (0,1) Abschätzung der Form P(U) > a zu formulieren, so 
kann durch Fortführung der in Gleichung (7.8) vorgenommenen Abschätzung 
immerhin eine schwächere Schranke für P(U|d) bestimmt werden. 


Die in Satz 7.1 angegebene Möglichkeit zur Abschätzung der globalen A- 
Posteriori-Wahrscheinlichkeit P(U|d) des lokalen Kontexts U kann auch 
auf den Fall, dass die in d zusammengefassten Informationsbeiträge d,, 
s € {1,...,S}, auf Basis individueller Likelihood-Funktionen ausgewertet 
werden, übertragen werden. Dieser Sachverhalt ist besonders dann relevant, 
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wenn die Informationsbeiträge d, als bedingt unabhängig gegeben z ange- 
nommen werden können und sich die Likelihood-Funktion I(d|z) somit als 
das Produkt der quellenspezifischen Likelihood-Funktionen bei der Fusion 
berücksichtigen lässt (vgl. Gleichung (3.24) und Gleichung (3.25)). Das nach- 
folgende Korollar stellt eine mögliche Adaption von Satz 7.1 für diesen Fall 
dar: 


Korollar 7.2. Es sei angenommen, dass die in d zusammengefassten Informa- 
tionsbeiträge d, bedingt unabhängig gegeben z sind. Dann ergibt sich aus der 
Bedingung I(d,|z) < ôs für alle z € U,s € {1,...,S}, die Abschätzung 


Selen, ga 
fy Udlz)p@|U) dz + (Is 8) (= - 1) 


PU) 


1 > P(U|d) > 


Beweis. Die Bedingung 1 > P(U|d) ist offensichtlich wieder trivialerweise 
erfüllt. 


Analog wie im Beweis von Satz 7.1 ergibt sich 


Ju Kdlz)p(z) dz 


PU) = | ayia) dz + fy dep) az ' 


(7.18) 


Gemäß der Annahme der bedingten Unabhängigkeit der Informationsbeiträ- 
ge d; gegeben z lässt sich in Gleichung (7.18) die Likelihood-Funktion I(d|z) 
durch das Produkt IE; I(d,|Z) ersetzen und die Abschätzung 


Ss S 
I] Kasa < [és (7.19) 
s=1 s=1 


für z € U liefert damit weiter analog zum Beweis von Satz 7.1 die in Glei- 
chung (7.17) formulierte untere Schranke Â für P(U|d). 


Im weiteren Verlauf der Arbeit wird der Einfachheit halber stets Bezug auf 
die in Satz 7.1 formulierte Abschätzung der A-Posteriori-Wahrscheinlichkeit 


7 Einbettung in den globalen Kontext 


P(U|d) des lokalen Kontexts U Bezug genommen. Die Herleitungen sind da- 
bei jedoch auf die Situation von Korollar 7.2 übertragbar, wenn man ß gemäß 
Gleichung (7.8) durch ß gemäß Gleichung (7.17) ersetzt. 


Das Einsetzen von Gleichung (7.8) in Gleichung (7.3) liefert eine untere 
Schranke für die globale A-Posteriori-Wahrscheinlichkeit von Ereignissen 
A C U. Kombiniert man dieses Ergebnis mit den oberen Schranken für 
die globalen A-Posteriori-Wahrscheinlichkeiten von Ereignissen gemäß 
Gleichung (7.4) und Gleichung (7.5), so erhält man insgesamt das folgende 
Intervall-Schema: 


P(Ald) € [I(A),r(A)] mit 
[8- P(Ald,U), P(Ald,U)] , falls ACU, 


1(A), r(A)] = 4 .20 
NETT ig =a), rien. 1% 
Mit Gleichung (7.3) ergibt sich für die Länge 
d(A) := r(A) - (A) (7.21) 
der in Gleichung (7.20) angegebenen Wahrscheinlichkeitsintervalle: 
1-ß 
P(Ald), falsACU, 
d(A) = + PU ld) 7 (7.22) 
1-6, falls ACU. 


d(A) wird für A C U also erst einmal unabhängig von A zum einen von 
der A-Posteriori-Wahrscheinlichkeit P(U|d) des lokalen Kontexts U und zum 
anderen von der für diese berechneten unteren Schranke ß beeinflusst. Für 
A C U ist nur die Schranke £ relevant. d(A) kann letztlich in beiden Fällen 
nur dann eher gering ausfallen, wenn der lokale Kontext U so konstituiert ist, 
dass P(U|d) auch dementsprechend hoch ist. Ebenso muss weiter auch die un- 
tere Schranke £ für P(U|d) entsprechend aussagekräftig sein. Im Fall A C U 
hängt d(A) jedoch auch von der globalen A-Posteriori-Wahrscheinlichkeit des 
betrachteten Ereignisses A ab. Ein global gesehen eher wahrscheinliches Er- 
eignis korrespondiert grundsätzlich mit einem längeren Wahrscheinlichkeits- 
intervall als ein global gesehen unwahrscheinlicheres Ereignis. Genauer gilt 
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wegen Gleichung (7.7) im Fall A,B C U für das Verhältnis der Längen der 
entsprechenden Wahrscheinlichkeitsintervalle gerade d(A)/d(B) = o(A,B). 


Im Hinblick auf die Auswertung der Wahrscheinlichkeitsintervalle ist 
dementsprechend auch insgesamt zu berücksichtigen, dass letztlich nicht 
allein Gleichung (7.20) das Wissen zusammenfasst, welches aus der lo- 
kalen Bayes’schen Fusion im Hinblick auf die globalen A-Posteriori- 
Wahrscheinlichkeiten resultiert. Zu berücksichtigen ist weiter Gleichung (7.7). 
Hieraus ergibt sich nämlich auch, dass die Werte der globalen A-Posteriori- 
Wahrscheinlichkeiten von Ereignissen, welche Teil des lokalen Kontexts U 
sind, nicht voneinander unabhängig in den Wahrscheinlichkeitsintervallen 
variieren können. Nimmt man an, dass die A-Posteriori-Wahrscheinlichkeit 
des Ereignisses B C U einen bestimmten Wert im zugehörigen Wahrschein- 
lichkeitsintervall annimmt, so ist wegen Gleichung (7.7) der mögliche Wert 
der A-Posteriori-Wahrscheinlichkeit für alle anderen Ereignisse A C U 
hieraus ja gerade eindeutig festgelegt. Es liegt auf der Hand, dass durch die- 
sen Sachverhalt die Aussagekraft des Wahrscheinlichkeitsintervall-Schemas 
deutlich erhöht wird. 


In Abschnitt 7.3.2.1 werden die Struktur des Wahrscheinlichkeitsintervall- 
Schemas und Möglichkeiten zur seiner Auswertung noch genauer anhand 
eines konkreten Beispiels verdeutlicht werden. Zuvor wird jedoch in Ab- 
schnitt 7.3.1 aufgezeigt, wie man durch Anwendung des Prinzips der Maxima- 
len Entropie aus der Menge der möglichen A-Posteriori-Verteilungen, welche 
konsistent mit dem Wahrscheinlichkeitsintervall-Schema (verbunden mit 
Gleichung (7.7)) sind, eine dementsprechend aus informationstheoretischer 
Sicht optimale Auswahl einer bestimmten A-Posteriori-Verteilung treffen 
kann. 
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7.3 Anwendung des Prinzips der Maximalen 
Entropie 


7.3.1 Analytische Bestimmung der (Maximum-Entropie) 
A-Posteriori-Verteilung 


Gemäß dem Prinzip der Maximalen Entropie sollte die globale A-Posteriori- 
Verteilung als die Lösung des folgenden Optimierungsproblems festgelegt 
werden (vgl. Gleichung (3.11)): 


Pur(z|d) = arg max H[p(z|d)] , (7.23) 
p(zld)e®Bz 


wobei 8, die Menge aller Wahrscheinlichkeitsverteilungen auf Z bezeichnet, 
welche konsistent mit Gleichung (7.7) und Gleichung (7.20) (oder äquivalent 
dazu mit Gleichung (7.2) und Gleichung (7.8)) sind. 


Im vorliegenden Abschnitt wird eine explizite Formel für pyr(z|d) angege- 
ben und bewiesen. Anschließend wird die Arbeitsweise des Prinzips der Ma- 
ximalen Entropie für diesen Fall genauer betrachtet. Diese Ergebnisse wurden 
zuvor als Teil der Publikationen [San10a] und [San14] veröffentlicht. 


Für den Beweis der Formel für pyyp(z|d) wird das nachfolgende Lemma benö- 
tigt werden: 


Lemma 7.3. Es bezeichne pc(x|d) die Wahrscheinlichkeitsverteilung über 
X := {U,U}, welche U gerade die Wahrscheinlichkeit P(U|d) zuweist. Dann 
gilt die folgende Beziehung: 


H[p@zld)] = H[ pc(x|d)]+P(U|d) H[ p(z|d,U)]+P(U|d) H[p(z|d, Ü] . (7.24) 


Beweis. Sowohl U als auch U lassen sich vom mathematischen Standpunkt 
als lokale Kontexte auffassen. Gemäß Gleichung (5.11) gilt somit 


p(z|d) = P(V|d)p(z|d,V), V €{U,Ū}. (7.25) 
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Unter Ausnutzung dieser Beziehung ergibt sich: 
HIp(z|d)] = - | p(z|d) log p(z|d) dz (7.26) 
Z 
=- | pediog pld dz 
U 
-f p(z|d) log p(z|d) dz (7.27) 
U 
= - | PUularptclavyiog PUDpE]dU) ae 
U 


- | PODPAO) 10g (POA plzIA.0)) dz (7.28) 
Ü 
= —P(U|d) log P(U|d) — P(U|d) log P(U|d) 


-PUIA | p(z|d,U) log p(z|d,U) dz 
U 


= PCOla) | pld) 10g plzid,0) az (7.29) 
Ü 


= H[pc(x|d)] + P(U|d) Hlp(z|d,U)] 
+ P(U|d)HIp(z|d,0)] . (7.30) 


Mit Lemma 7.3 lässt sich nun folgender Satz beweisen, welcher eine explizite 
Formel für die (Maximum-Entropie) A-Posteriori-Verteilung Pyp(z|d) gemäß 
Gleichung (7.23) angibt: 


Satz 7.4. Das Optimierungsproblem gemäß Gleichung (7.23) besitzt bezogen 
auf den Anteil U C Z, d.h. fürz € U, folgende Lösung: 


E zp(zld, U), fallsB<z, 
PERAS B p(zldU), falls <ß. wan 


225 


7 Einbettung in den globalen Kontext 


Hierbei bezeichnet ß die in Satz 7.1 hergeleitete Schranke für die globale A- 
Posteriori-Wahrscheinlichkeit P(U|d) des lokalen Kontexts U. Weiter ist 1 ge- 
geben durch 


2HIp(zld,U)] 


=e .32 
7 = SAPEI) + 2PlPuEld, 0) an 


Bei der Angabe in Gleichung (7.32) ist angenommen, dass die Logarithmen in den 
Entropie-Termen zur Basis 2 gebildet wurden. Der Ausdruck H| pur (z|d,U)] in 
Gleichung (7.32) notiert die Entropie einer nichtinformativen Wahrscheinlich- 
keitsverteilung über Ü. 


Hinsichtlich der Fortsetzung des in Gleichung (7.31) fürz € U angegebenen 
Anteils von Pug(z|d) auf U gilt: Da keine Information über die Struktur der 
globalen A-Posteriori-Verteilung innerhalb von U vorliegt, muss Pug(z|d) not- 
wendigerweise nichtinformativ in Bezug auf U sein. 


Beweis. Die Maximierung der Entropie H| p(z|d)] von p(z|d) ist offensichtlich 
äquivalent zur Minimierung des negativen Gegenstücks —H[p(z|d)]. 


Unter Verwendung der Abkürzung u, := P(U|d) liefert Lemma 7.3 


—H[p(zld)] = u, logu, + (1 — up) log(1 — up) 
— up H[p(z|d,U)] — (1 — up)H[p(z|d,Ū)] . (7.33) 


Schränkt man sich bei der lokalen Bayes’schen Fusion auf den lokalen Kon- 
text U ein, so bedeutet dies, dass das Komplement U des lokalen Kontexts U 
vollständig ignoriert wird. Es liegt im lokalen Bayes’schen Modell also abso- 
lut keine Information im Hinblick auf U vor. Dies spiegelt sich auch gerade in 
Gleichung (7.7) und Gleichung (7.20) bzw. Gleichung (7.2) und Gleichung (7.8) 
wieder. 


Gleichung (7.33) ergibt deshalb sofort, dass der Ausdruck —H[p(z|d)] minimal 
wird, wenn man p(z|d,U) so wählt, dass H[p(z|d,U)] maximal wird. Man 
muss also die Festlegung p(z|d,U) = pyp(z|d,U) treffen, wobei pyur(z|d,ÜU) 
eine nichtinformative Wahrscheinlichkeitsverteilung über U notiert. 
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Es gilt damit also, dass die Funktion 


f(up) := Up logu, + (1-u,)log(l — up) 
— up H[p(z|d,U)] - (1 — up) Hlpur(z|d,0)] (7.34) 


unter der Bedingung f < up, welche mit Gleichung (7.8) korrespondiert, zu 
minimieren ist. 


Durch Bildung der zweiten Ableitung von f(u,) erkennt man, dass f(u,) 
konvex ist für u, € (0,1). Es liegt also ein konvexes Optimierungsproblem 
vor. 


Die Lösung eines derartigen konvexen Optimierungsproblems basiert auf der 
Betrachtung der entsprechenden Lagrange-Funktion [Boy04], welche im vor- 
liegenden Fall die folgende Form besitzt: 


L(up À) = up logu,n + (1 — up) log(1 — up) 
— Up Hlp(zld,U)] — (1 — up) H[pme(z|d,Ū)] 
+A(B — up) . (7.35) 


Die Karush-Kuhn-Tucker (KKT) Bedingungen [Boy04], welche erfüllt sein 
müssen, sind gegeben durch: 


(a)B<up, 420, (JA=0vß=u, 


(8) log( 72- )  HIpGld.0)] + Hlpue(ld 0) -2 = 0. 
P 


An dieser Stelle ist nun eine Fallunterscheidung hinsichtlich der Bedingung 
(c) notwendig: 


Im Fall, dass A = 0 gilt, liefert Bedingung (d) 


MP _ gHlpzid,D)N-Hlpu(zid,O)] (7.36) 


1-u, 
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was äquivalent ist zu 


„Hlp(zld,U)] 
U = = . 
P 9H[p(zld,U)] 4 2Hlpuz(zld,Ü) 


(7.37) 


Gemäß Bedingung (a) muss dabei ß < u, gelten. 


Im anderen Fall, dass $ = u, gilt, liefert Bedingung (d) 


ie (5) — H[p(zld,U) + H[pye(zld,0)) - (7.38) 


Gemäß Bedingung (b) muss dabei gelten 


a > 2Ħlp(z|d,U)]-H[pme(z|d,0)] , (7.39) 
Dies ist äquivalent zu 
JHlP(zId,U) 
pe 


en ee ey .40 
— QHI[p(z|d,U) 4 2H[Pue(zid,0)] (740) 


Wie in Abschnitt 3.5.1 dargestellt wurde, liefert das Prinzip der Maximalen 
Entropie aus der Menge aller Wahrscheinlichkeitsverteilungen, welche kon- 
sistent mit der vorliegenden Information sind, diejenige Wahrscheinlichkeits- 
verteilung, durch welche die Unsicherheit bezüglich des „wahren“ Werts von 
z nur in dem Umfang verringert wird, in dem dies notwendig ist, um die Kon- 
sistenz mit der vorliegenden Information sicherzustellen. Wirft man einen ge- 
naueren Blick auf die in Gleichung (7.31) angegebene Formel für pyr(Z|d), so 
wird dieser Sachverhalt für den im vorliegenden Abschnitt betrachteten spe- 
zifischen Anwendungsfall auch offensichtlich. 


Gilt 6 < 7, so weist das Prinzip der Maximalen Entropie dem lokalen Kontext 
U einen umso größeren Anteil an globaler A-Posteriori-Wahrscheinlichkeit 
zu, je unsicherer die lokale A-Posteriori-Verteilung p(z|d,U) ist. Umgekehrt 
gilt, dass das Prinzip der Maximalen Entropie den lokalen Kontext U (a 
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posteriori) als global umso weniger wahrscheinlich annimmt, je informativer 


p(z|d,U) ist. 


Dieser Sachverhalt entspricht der generellen Beobachtung, dass das Prinzip 
der Maximalen Entropie gewissermaßen den Worst Case annimmt (vgl. 
hierzu auch [Wal91]). Die Tatsache, dass die lokale A-Posteriori-Verteilung 
p(z|d,U) recht konzentriert ist, muss wie bereits dargestellt global ge- 
sehen nicht der Realität entsprechen (vgl. Abschnitt 5.2.3.3), denn durch 
den Übergang von der globalen A-Posteriori-Verteilung p(z|d) zur lokalen 
A-Posteriori-Verteilung p(z|d,U) werden die Wahrscheinlichkeiten von Er- 
eignissen A C U verzerrt (genauer: als zu hoch eingeschätzt). Wie ebenfalls 
dargestellt ist der Grad dieser Verzerrung dabei umso höher, je geringer 
die globale A-Posteriori-Wahrscheinlichkeit P(U|d) des lokalen Kontexts U 
tatsächlich ist (vgl. auch Gleichung (7.3)). Das Prinzip der Maximalen Entro- 
pie geht davon aus, dass das Vorliegen einer recht konzentrierten lokalen 
A-Posteriori-Verteilung p(z|d,U) mit geringer Entropie auf eine entspre- 
chend hohe Verzerrung zurückzuführen sein könnte und versucht diese dann 
auszugleichen, indem es die lokale A-Posteriori-Verteilung p(z|d,U) bei der 
Überführung in die (Maximum-Entropie) A-Posteriori-Verteilung pyur(z|d) 
entsprechend umfangreicher abflacht. Letzteres korrespondiert gerade damit, 
dass die mittels pyg(z|d) berechnete A-Posteriori-Wahrscheinlichkeit des 
lokalen Kontexts U umso geringer ausfallt, also umso mehr Wahrscheinlich- 
keitsmasse auf den bei der lokalen Bayes’schen Fusion nicht betrachteten 
Anteil U von Z gelegt wird. Der beschriebene Sachverhalt wird nachfolgend 
auch in den in Abschnitt 7.3.2 dargelegten Berechnungsbeispielen noch 
genauer veranschaulicht. 


Ist man sich der beschriebenen Arbeitsweise des Prinzips der Maximalen 
Entropie bewusst und interpretiert die gelieferten Ergebnisse auch entspre- 
chend, so kann seine Anwendung durchaus eine vielversprechende Möglich- 
keit sein, um die lokale A-Posteriori-Verteilung p(z|d,U) nachgelagert an die 
eigentliche lokale Bayes’sche Fusion in eine globale A-Posteriori-Verteilung 
auf Z zu überführen. Seine Arbeitsweise kann dazu beitragen, dass die Er- 
gebnisse der lokalen Bayes’schen Fusion von einem vorsichtigen Standpunkt 
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aus interpretiert werden und so letztlich Schlussfolgerungen, welche global 
gesehen nicht der Realität entsprechen, vermieden werden. 


Voraussetzung dabei ist natürlich, dass die untere Schranke £ für die globa- 
le A-Posteriori-Wahrscheinlichkeit P(U|d) des lokalen Kontexts U auch ent- 
sprechend aussagekräftig bestimmt werden muss. Eine wenig aussagekräf- 
tige Schranke kann letztlich dazu führen, dass bei Anwendung des Prinzips 
der Maximalen Entropie ein extrem hoher Anteil an Wahrscheinlichkeitsmas- 
se auf U gelegt wird, mit der Konsequenz, dass die (Maximum-Entropie) A- 
Posteriori-Verteilung pyr(Z|d) kaum noch zur Ableitung nützlicher Schluss- 
folgerungen verwendet werden kann. 


Es sei angemerkt, dass der Sachverhalt, dass das Prinzip der Maximalen Entro- 
pie umso mehr Wahrscheinlichkeitsmasse auf Ü umverteilt, je konzentrier- 
ter p(z|d,U) ist, speziell für den Fall, dass |U| = |U| = 2 gilt, in anderem 
Zusammenhang bereits 1981 von Van Fraassen in [Van81] beschrieben und 
untersucht wurde. Konkret geschah dies in Bezug auf das sog. Judy Benja- 
min Problem, welches auch in neueren Veröffentlichungen noch aufgegriffen 
wird (siehe z.B. [Bov09, Dou11]). Van Fraassen bezieht sich nicht direkt auf 
das Prinzip der Maximalen Entropie, sondern auf das Prinzip der Minimalen 
Information, welches wie in Abschnitt 3.5.1 dargestellt als Verallgemeinerung 
des Prinzips der Maximalen Entropie aufgefasst werden kann. 


7.3.2 Berechnungsbeispiele 


7.3.2.1 Wahrscheinlichkeitsintervalle, (Maximum-Entropie) 
A-Posteriori-Verteilung 


Zur Verdeutlichung der Ergebnisse im Hinblick auf das in Abschnitt 7.2 
adressierte Wahrscheinlichkeitsintervall-Schema für die globale A-Posteriori- 
Wahrscheinlichkeit von Ereignissen und damit zusammenhängend auch der 
Ergebnisse im Hinblick auf die durch Anwendung des Prinzips der Ma- 
ximalen Entropie gemäß Abschnitt 7.3.1 resultierende eindeutige globale 
(Maximum-Entropie) A-Posteriori-Verteilung wird im vorliegenden Ab- 
schnitt der Übersichtlichkeit halber wieder ein einfaches und illustratives 
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Beispiel betrachtet. Dieses Beispiel wurde in der nachfolgenden Form zuvor 
bereits in [San10b] veröffentlicht. 


Die Aufgabe bestehe darin, den Typ eines Fahrzeugs festzustellen, d.h. es gilt 
Z = Z, wobei Z, die Menge der möglichen Fahrzeugtypen notiert. Es liege ei- 
ne Informationsquelle vor, welche als Informationsbeitrag d, gerade ein Grau- 
wertbild des Fahrzeugs liefert. Die Menge der möglichen Fahrzeugtypen wird 
exemplarisch als Z = {A (Audi), D (DKW), F (Ford), M (Mercedes), O (Opel)} 
festgelegt. A priori sei das Vorhandensein dieser Typen gleich plausibel, so 
dass als A-Priori-Verteilung p(z) die Gleichverteilung auf Z zu setzen ist. Zur 
Gewinnung der Likelihood-Funktion I(d,|z) wird (rein exemplarisch) eine an 
die möglichen Typen gemäß Z angepasste Matched-Filter Bank, welche Grau- 
wertbilder von gleicher Größe wie d, als Templates enthält, verwendet und 
es wird (wie im Beispiel in Abschnitt 5.3) die normalisierte Kreuzkorrelation 
berechnet. Zur Bestimmung des lokalen Kontexts U wird eine Schranke an 
die Likelihood-Funktion I(d,|z) angelegt. Ein möglicher Wert z aus Z wird 
lokal ignoriert, d. h. nicht in den lokalen Kontext U aufgenommen, wenn gilt 


I(dılz)<d mitö=e-maxl(dı|z). (7.41) 
ZEZ 


In Abb. 7.1 sind in Form der dargestellten Balken die resultierenden Wahr- 
scheinlichkeitsintervalle für die globalen A-Posteriori-Wahrscheinlichkeiten 
der verschiedenen Fahrzeugtypen in Abhängigkeit von unterschiedli- 
chen Festlegungen für € aufgezeigt. Der tatsächliche Wert der (im lokalen 
Bayes’schen Modell unbekannten) A-Posteriori-Wahrscheinlichkeit befindet 
sich jeweils an der Stelle, an der die Balken ihre Farbe wechseln. 


Für € = 0,0227 und € = 0,1 ergibt sich als lokaler Kontext U = {A, F, O}. Für 
€ = 0,1129 resultiert U = {A, O}, d.h. der mögliche Typ F wird zusätzlich 
ignoriert im lokalen Bayes’schen Modell. Für € = 0,7 resultiert U = {O}, d.h. 
der Typ O wird im lokalen Bayes’schen Modell als sicher vorliegend erachtet. 
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x 


x x 


AODFM 
(a) € = 0,0227. 


xf x 
AOD FM 0 AODFM 
(e) € = 0,1129. (d) € = 0,7. 


Abbildung 7.1: Wahrscheinlichkeitsintervalle und Maximum-Entropie Verteilung. 
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In allen vier hier exemplarisch dargestellten Fällen ist es möglich, den 
tatsächlich vorliegenden Typ O als den (eindeutigen) globalen Maximum-A- 
Posteriori-Schätzwert zu identifizieren. Es gilt nämlich, dass der Typ O in 
allen Fällen im lokalen Kontext U enthalten ist und dass im Hinblick auf die 
oberen Grenzen der Wahrscheinlichkeitsintervalle die Beziehung r(O) > r(z) 
für alle z € U \ {O} besteht. Man beachte, dass die Frage, ob sich die ent- 
sprechenden Wahrscheinlichkeitsintervalle überlappen, nicht entscheidend 
für diese Schlussfolgerung ist. 


Die Länge d(z) der resultierenden Wahrscheinlichkeitsintervalle wird nicht 
nur von der A-Posteriori-Wahrscheinlichkeit P(U|d) des lokalen Kontexts U 
und den Werten der A-Posteriori-Verteilung p(z|d) für z € U beeinflusst, 
sondern auch von der an die Likelihood-Funktion angelegten Schranke. Die- 
sen Sachverhalt erkennt man recht gut, wenn man die für e = 0,0227 und 
€ = 0,1 resultierenden Wahrscheinlichkeitsintervalle, für die die vorgenann- 
ten beiden Größen identisch sind, vergleicht. Der Grund hierfür ist, dass die an 
die Likelihood-Funktion angelegte Schranke die Abschätzung für f und da- 
mit letztlich auch die Wahrscheinlichkeitsintervalle an sich beeinflusst (vgl. 
Gleichung (7.8) und Gleichung (7.22)). 


Der Wert e = 0,0227 wurde experimentell so bestimmt, dass er eine 
recht scharfe Schranke dafür, dass gerade die Typen D und M im lokalen 
Bayes’schen Modell ignoriert werden, liefert. Man sieht, dass auch in diesem 
Fall die tatsächlichen Werte der A-Posteriori-Verteilung entfernt von den 
entsprechenden Intervallschranken 1(z) und r(z) liegen. Der Grund hierfür 
ist, dass in diesem Fall zwar l(d,|M) x e - maxzez I(dı|z) gilt, aber weiter 
auch I(d,|D) << € - maxzez I(d,|z). 


Der Wert € = 0,1129 wurde in analoger Weise experimentell so bestimmt, 
dass er eine recht scharfe Schranke dafiir, dass der Typ F zusatzlich im loka- 
len Bayes’schen Modell ignoriert wird, liefert. Da die resultierende Schranke 
aber wiederum (noch) weniger scharf im Hinblick auf I(d,|D) und auch nicht 
scharf im Hinblick auf l(d} |M) ist, nimmt die Länge der entsprechenden Wahr- 
scheinlichkeitsintervalle weiter zu. Dieser Effekt verstärkt sich für die Wahl 
€ = 0.7 weiter. 
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Für das vorliegende Beispiel wurde weiter die durch Anwendung des Prin- 
zips der Maximalen Entropie resultierende (Maximum-Entropie) A-Posteriori- 
Verteilung pus(z|a) bestimmt. Diese ist in Abb. 7.1 jeweils durch die Kreuze 
in den Wahrscheinlichkeitsintervallen dargestellt. Die (Maximum-Entropie) 
A-Posteriori-Verteilung korrespondiert für z € U hier in allen vier Fällen 
gerade mit der unteren Schranke I(z) der Wahrscheinlichkeitsintervalle. Das 
Prinzip der Maximalen Entropie schätzt die A-Posteriori-Wahrscheinlichkeit 
P(U|d) des lokalen Kontexts U also in allen vier Fällen so gering, wie es in 
Anbetracht der zu berücksichtigenden Schranke 6 gemäß Gleichung (7.8) nur 
möglich ist, ein. 


7.3.2.2 Arbeitsweise des Prinzips der Maximalen Entropie 


Im nachfolgenden Beispiel wird die Arbeitsweise des Prinzips der Maxima- 
len Entropie noch genauer verdeutlicht. Dies geschieht anhand des Falls, dass 
anders als in Gleichung (7.31) keine untere Schranke £ für die globale A- 
Posteriori-Wahrscheinlichkeit P(U|d) des lokalen Kontexts U zu berücksich- 
tigen ist, die A-Posteriori-Wahrscheinlichkeit des lokalen Kontexts U vom 
Prinzip der Maximalen Entropie also beliebig gering eingestuft werden kann. 


In Abb. 7.2 ist anhand des Falls n = 1 und Z = {v,9,93,v4} veranschaulicht, 
wie die Struktur der lokalen A-Posteriori-Verteilung p(z|d,U) die resultieren- 
de (Maximum-Entropie) A-Posteriori-Verteilung pur(Z|d) grundsätzlich ge- 
sehen beeinflussen kann. Es wird dabei angenommen, dass der lokale Kontext 
durch U = {v3,14} gegeben ist. 


Unter diesen Annahmen werden drei mögliche, unterschiedlich stark kon- 
zentrierte Ausprägungen der lokalen A-Posteriori-Verteilung p(v;|d,U), i € 
{3,4}, betrachtet, welche auf der linken Seite von Abb. 7.2 angeführt sind. Auf 
der rechten Seite von Abb. 7.2 ist die jeweils durch Anwendung des Prin- 
zips der Maximalen Entropie gemäß Satz 7.4 resultierende globale (Maximum- 
Entropie) A-Posteriori-Verteilung p,;(z|d) angeführt, jeweils unter der An- 
nahme, dass die Schranke £ nicht greift. D. h. es gilt in allen Fällen pyg(z|d) = 
x p(z|d,U) mit z gemäß Gleichung (7.32). Wie aus Abb. 7.2 gut erkennbar ist, 
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fällt Ppme(z|d) im Hinblick auf den lokalen Kontext U umso niedriger gegen- 
über der lokalen A-Posteriori-Verteilung p(z|d,U) aus, je geringer die Entro- 
pie von p(z|d,U) ist. 


Z= {95,795 V4}, U= {nVa} 


Pme ld) x 0,250 

p(»3|d,U) = 0,51 Pme ld) x 0,250 

_ | | p(vald,U) = 0,49 Pue®ld) x 0,255 
Vi Va V3 V4 Pme4ld) x 0,245 


Pme l|d) © 0,266 

p™|d,U) = 0,75 Pur™ld) x 0,266 

I p(wld,U) = 0,25 Pmld) x 0,351 

v Va V3 V4 Pur@ald) x 0,117 


p™%|d,U) = 0,99 Pme ld) x 0,327 
p(v4|d,U) = 0,01 Pm®ld) x 0,342 


| Pm ld) © 0,327 
Vy V V3 Vy Pme(%4|d) = 0,004 


Abbildung 7.2: Illustratives Beispiel zur Verdeutlichung der Arbeitsweise des Prinzips der Ma- 
ximalen Entropie im Hinblick auf die Bestimmung der globalen (Maximum- 
Entropie) A-Posteriori-Verteilung, wenn die Schranke ß nicht greift. 


Ist Z diskret, so wird ist die (Shannon) Entropie H[q(z)] einer Wahrscheinlich- 
keitsverteilung q(z) über Z genau dann maximal, wenn q(z) die Gleichvertei- 
lung auf Z ist, und es gilt H[q(z)] = log |Z|. Bezeichnet q(z) die Gleichvertei- 
lung einer kontinuierlichen Zufallsgröße z über einem entsprechend gewähl- 
ten Träger Z, so gilt für ihre (Boltzmann) Entropie H[q(z)] = log (Jz dz). Der 
Wert der Entropie der Maximum-Entropie-Verteilung (insbesondere) hängt 
also grob gesagt vom Umfang von Z ab. Vgl. hierzu auch [Bey99]. 


Betrachtet man Gleichung (7.31) und insbesondere Gleichung (7.32), so er- 
kennt man sofort, dass die aus Satz 7.4 resultierende (Maximum-Entropie) 
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A-Posteriori-Verteilung Pyp(z|d) also letztlich auch von der Struktur von Z 
und insbesondere auch U abhängt. Die nachfolgende Abbildung illustriert 
diesen Sachverhalt exemplarisch. Das in Abb. 7.3 angegebene Beispiel stellt 
das Analogon zum in Abb. 7.2 angebenden Beispiel für den Fall, dass Z zu- 
sätzliche Elemente enthält, welche U zugeordnet sind, dar. Es wird wieder 
exemplarisch angenommen, dass die Schranke £ nicht greift, d.h. dass also 
gilt Pyg(z|d) = 7 p(z|d,U) mit z gemäß Gleichung (7.32). Man erkennt gut, 
dass die globale (Maximum-Entropie) A-Posteriori-Verteilung pur(Z|d) we- 
niger Wahrscheinlichkeitsmasse über dem lokalen Kontext U besitzt, als es in 
der Situation von Abb. 7.2 der Fall ist. Die Umverteilung von Wahrscheinlich- 
keitsmasse auf Ü fällt also noch stärker aus. 


Z= {v9 93,94 Vs, V6} U= {V3,V4} 
pQ3|d,U) = 0,51 Pur(73\/d) 0,169 
P(y,|d,U) x 0,49 z% Pme4ld) © 0,163 


r Il T oo aa a Pela) ~ 0,167 
Vy Vz Vz V4 Vs Vo Vi Vz Vz V4 Vs Ve für i € {1,2,5,6} 


pQ3|d,U) = 0,75 Pve(3|d) x 0,228 
| P(y|d,U) = 0,25 Pwe(%|d) ~ 0,076 
pee ||| re 


po De og Pue(%ld) © 0,174 
Vi Va V3 V4 V5 V6 Vi Y V V4Vs W% für i € {1,2,5,6} 


p™%l|d,U) = 0,99 Pm™®ld) x 0,206 
pv4|d,U) = 0,01 Pur(Vald) ~ 0,002 

BAN NN Pur(;|d) % 0,198 

Vi Vz, V3 V4 Vs Vo Vi Vz Vz V4 Vs Ve fiir i € {1,2,5,6} 


Abbildung 7.3: Analogon zu Abb. 7.2 für den Fall, dass Z zusätzliche Elemente enthält. 
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7.4 Anwendung der Entscheidungstheorie 


Die im vorliegenden Abschnitt dargelegten Herleitungen und Ergebnisse 
wurden samt den hierzu notwendigen Grundlagen zuvor in [San11] und als 
Anteil von [San10a] veröffentlicht. 


7.4.1 Entscheidungen unter Risiko, partieller 
Information und linearer partieller Information 


Es sei A eine Menge an möglichen Aktionen und es sei u(a,z) eine Nutzen- 
funktion über A x Z, welche jeweils den Nutzen einer Aktion a € A in Ab- 
hängigkeit vom Wert von z € Z angibt. Die Aufgabe bestehe darin, auf Basis 
des a posteriori vorliegenden Informationsstands bezüglich z bestmöglich ei- 
ne Aktion aus A auszuwählen. 


Ware die globale A-Posteriori-Verteilung p(z|d) vollständig bekannt, so läge 
ein Entscheidungsproblem unter Risiko vor (vgl. z.B. [Rüg99]). Gemäß dem 
sog. Prinzip der Maximierung des erwarteten Nutzens (vgl. z. B. [Ber04]) sollte 


ein rationaler Entscheider in dieser Situation eine Aktion a,,, E€ A auswählen, 


opt 
welche den a posteriori erwarteten Nutzen maximiert, d.h. 


opt = arg max Epczia)lu(a,z)] (7.42) 
mit 
Epceleda.2)] = | uaap ez. (7.43) 


Im Folgenden wird (sinnvollerweise) angenommen, dass die verwendeten 
Nutzenfunktionen beschrankt sind und dass jeweils eine Aktion, welche 
optimal im Sinne von Gleichung (7.42) ist, existiert. 


Die (globale) Entscheidungsfindung auf Basis eines lokalen Bayes’schen 
Modells stellt ein Entscheidungsproblem unter partieller Information (vgl. 
z.B. [Pre02]) dar. In diesem Fall ist nur bekannt, dass p(z|d) in der Menge 
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aller Wahrscheinlichkeitsverteilungen über Z, welche konsistent mit Glei- 
chung (7.7) und Gleichung (7.20) (oder äquivalent dazu mit Gleichung (7.2) 
und Gleichung (7.8)) sind, enthalten ist. Als Konsequenz hieraus ergibt 
sich, dass für den erwarteten Nutzen einer Aktion a € A in der Regel 
jeweils eine Menge an möglichen Werten resultiert, welche bei der (globalen) 
Entscheidungsfindung berücksichtigt werden muss. 


In der Fachliteratur finden sich unterschiedliche Ansätze im Hinblick die Er- 
arbeitung von Entscheidungskriterien unter partieller Information. Konkret 
angeführt hierzu seien die Referenzen [Kof76, Pre02, Utk05, Wal91]. Manche 
der vorhanden Ansätze sind, ggf. nach geringfügigen Anpassungen, in der La- 
ge, auch mit kontinuierlichen Wahrscheinlichkeitsverteilungen umzugehen. 
Siehe hierzu z.B. [Aug98, Wal91, Wei01]. Effiziente Modelle und Algorithmen 
sind letztlich aber vor allem für den Fall von diskreten Wahrscheinlichkeits- 
verteilungen über einem endlichen Grundraum vorhanden. Die Referenzen 
[Obe07] und [Utk09] stellen Beispiele für Arbeiten dar, welche die Adaption 
entsprechender Ansätze auf den allgemeinen Fall adressieren. 


Nachfolgend wird das bei der lokalen Bayes’schen Fusion vorliegende Ent- 
scheidungsproblem unter partieller Information in eine spezielle Ausprägung 
eines derartigen Entscheidungsproblems, genauer auf ein Entscheidungspro- 
blem unter linearer partieller Information (LPI) überführt. Die Grundlagen zu 
der mit derartigen Entscheidungsproblemen korrespondierenden Theorie li- 
nearer partieller Information wurden in [Kof76] umfassend eingeführt. Diese 
Theorie besitzt eine recht hohe Ausdrucksstärke und ermöglicht dabei gleich- 
zeitig eine vom theoretischen Standpunkt aus recht unkomplizierte und auch 
methodisch exakte Handhabung der von ihr abgedeckten Klasse von Entschei- 
dungsproblemen. Eine wichtige Basis für die vorliegende Arbeit stellt dabei 
weiter auch der in [Pre02] veröffentlichte Ansatz des sog. Lazy Decision Ma- 
king dar. Der diesem Ansatz zugrundeliegende Gedanke besteht darin, dem 
Entscheider die Möglichkeit zu bieten, die zur Formulierung des Entschei- 
dungsproblems notwendige Information zuerst einmal nur grob zu spezifizie- 
ren und diese dann im Rahmen der Entscheidungsfindung zielgerichtet wei- 
ter zu präzisieren, falls sie nicht genügt, um eine ausreichend gute Aktion zu 
identifizieren. Es ist gut erkennbar, dass dieser Gedanke, speziell für den Kon- 
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text der Entscheidungsfindung, konzeptionell gesehen Parallelen zu dem der 
lokalen Bayes’schen Fusion zugrundeliegenden Gedanken aufweist. 


Der Festlegung in [Kof76] folgend wird lineare partielle Information in der 
vorliegenden Arbeit wie folgt definiert: 


Definition 7.5. Partielle Information bezüglich einer Wahrscheinlichkeitsver- 
teilung über einer endlichen Menge der Kardinalitat k € N stellt lineare parti- 
elle Information dar, wenn das entsprechende Teilgebiet W des k-dimensionalen 
Verteilungssimplexes [0,1]* wie folgt durch ein System von Ungleichungen fest- 
gelegt werden kann: Es existieren BE R undc € R! mitl € N so dass gilt 


k 

W = jp = (pt, p") € R*| >) pt =1,0 < pi für 1 <i<k,Bp>cy. 
i=1 

(7.44) 


Wie gut erkennbar ist, legt das Ungleichungssystem W in Definition 7.5 ge- 
rade eine Menge von Wahrscheinlichkeitsverteilungen über der zugrundelie- 
genden k-dimensionalen Menge von atomaren Ereignissen fest. Diese Wahr- 
scheinlichkeitsverteilungen sind dabei in Form des Vektors p beschrieben, 
wobei die i-te Komponente p! von p gerade die Wahrscheinlichkeit des i-ten 
atomaren Elements darstellt, i € {1, ... ,k}. 


Die Rückführung des bei der lokalen Bayes’schen Fusion vorliegenden Ent- 
scheidungsproblems unter partieller Information auf ein Entscheidungspro- 
blem unter linearer partieller Information basiert auf der (manchmal, aber 
nicht immer ohnehin schon geltenden) Annahme, dass das Komplement U 
des lokalen Kontexts U eine (ggf. auch umfangreiche) endliche Menge dar- 
stellt oder in eine solche überführt werden kann. Es wird also angenommen, 
dass U = {r}, ... vu} für ein M EN gilt. 


Das folgende Lemma zeigt auf, dass und wie genau sich die (globale) Entschei- 
dungsfindung auf Basis eines lokalen Bayes’schen Modells dann auf ein Ent- 
scheidungsproblem unter linearer partieller Information zurückführen lässt: 
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Lemma 7.6. Hinsichtlich der (globalen) A-Posteriori-Verteilung p(z|d) sei ge- 
rade bekannt, dass diese in der Menge P, aller Wahrscheinlichkeitsverteilungen 
auf Z, welche konsistent mit Gleichung (7.2) und Gleichung (7.8) sind, enthal- 
ten ist. Dann ist in einem (globalen) Entscheidungsproblem mit Nutzenfunktion 
u(a,z) für jede Aktion a € A die Menge der möglichen Werte ihres (globalen) a 
posteriori erwarteten Nutzens 


{Epczialee(a,z)]|p(zid) € Bz} (7.45) 


identisch zur Menge der möglichen Werte für den erwarteten Nutzen der Akti- 
on a in einem Entscheidungsproblem unter linearer partieller Information. Das 
korrespondierende Entscheidungsproblem unter linearer partieller Information 
ist ein Entscheidungsproblem über 


Zif = fn, oes „YM»’IM +1} mit U = fn, oes Yu} und VM+1 := U (7.46) 
und das zugehörige Teilgebiet von [0,1|™*1 ist gegeben durch 
M+1 


>. p =1,0< pi füör1<i<M,ß<p™” 
i=1 


Wy := Ir = pp 


(7.47) 


Weiter ist die Nutzenfunktion in diesem Entscheidungsproblem unter linearer 
partieller Information gegeben durch 


u(a,y) , ir i € {1,...,M}, 
U,r(a,V;) =| ay ey (7.48) 
Ey(zia,uylula,z)], füri=M +1. 
Beweis. Es gelte 
p! := p(vjld) ‚ie {1,...,M}, und p+! := P(Ud). (7.49) 


Wi, enthält damit dann gerade alle möglichen (globalen) A-Posteriori- 
Verteilungen über Z, die die Bedingung P(U|d) > ß gemäß Gleichung (7.8) 
erfüllen. Man erkennt recht leicht, dass diese Bedingung im Hinblick auf 
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p lineare partielle Information darstellt: Gleichung (7.47) ist identisch zu 


M+1 


Gleichung (7.44), wenn man die redundante Bedingung 0 < p zufügt und 


wenn man B = (0,...,0,1) sowie c = ß setzt. 


Aufgrund des Zusammenhangs zwischen der globalen A-Posteriori-Verteilung 
p(zld) und der lokalen A-Posteriori-Verteilung p(z|d,U) gemäß Glei- 
chung (7.2) gilt allgemein für jede Aktion a € A: 


Epcziaylu(a,z)] = I u(a,z)p(z|d) dz + P(U|d)Ey(zia,uylu(a,z)] . (7.50) 
Ü 


Mit der in Gleichung (7.46) gemachten Festlegung ist E p(zja) [u(a,z)] hier ge- 
rade identisch ist zu 


M 
Eplurp(a.y)] = >) pi ulam) + PME,za,uylu(a,2)] - (7.51) 
i=1 


Dabei bezeichnet E,[u;r(a,v;)] den erwarteten Nutzen der Aktion a € A 
bezüglich der Nutzenfunktion u;;(a,V;), der beim Zugrundelegen der p(z|d) 
gemäß Gleichung (7.50) entsprechenden Wahrscheinlichkeitsverteilung p aus 
der Menge Wj, resultiert. Es ergibt sich damit, dass die in Gleichung (7.48) 
eingeführte Nutzenfunktion auf A X Zr wie in Lemma 7.6 formuliert konsis- 


tent zur ursprünglichen Nutzenfunktion u(a,z) auf A x Z ist. 


Partielle Information beziiglich einer Wahrscheinlichkeitsverteilung stellt be- 
kanntermaßen lineare partielle Information gemäß Definition 7.5 dar, wenn 
W geometrisch gesehen ein konvexes Polyeder [Fis01] darstellt. Siehe hierzu 
[Kof76]. Auf Basis des nachfolgenden Lemmas aus der Grundlagenliteratur 
kann man diese geometrische Betrachtung im Hinblick auf die lineare Opti- 
mierung nutzen. 


Es bezeichne dabei im Folgenden V(W) die Menge der Ecken [Fis01] eines 
konvexen Polyeders W C RK. 
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Lemma 7.7. Es seien f : R® > R eine lineare Funktion und W C RK ein kon- 
vexes Polyeder für eink € N. Dann existieren Punkte W min E V(W) und Wmax € 
VW) so, dass gilt f (Wmin) = Minyew f(W) und f (Wmax) = MaxXwew FW). 


Hinsichtlich eines Beweises von Lemma 7.7 sei auf die entsprechende Grund- 
lagenliteratur, konkret z. B. auf [Fis01] oder [Neu04], verwiesen. 


Das nächste Lemma zeigt, dass in der Situation von Lemma 7.6 die Menge der 
Ecken V(Wır) des konvexen Polyeders Wr eine rechnerisch sehr günstige 
Struktur aufweist: 

Lemma 7.8. In der Situation von Lemma 7.6 ist p' = (p',...,pM@+1)' e RM+! 
genau dann eine Ecke von Wır wenn gilt 


. (0, firl<i<M, 
p= (7.52) 
1, firi=M+1, 


oder 
1-6, füreinig E {1,...,.M}, 
Dex, fürı<i<Mundi#ig, (7.53) 
f., füri=M+1. 


Beweis. Aus den in der Grundlagenliteratur zu linearer partieller Informati- 
on dokumentierten Ergebnissen (vgl. [Kof76] oder [Pre02]) ergibt sich sofort, 
dass p' = (p!,...,p +!) e RM+! genau dann eine Ecke von Wj, ist, wenn 
M +1 der M +2 Bedingungen in Gleichung (7.47) mit Gleichheit erfüllt sind. 
Im vorliegenden Fall bedeutet dies, dass die Werte von M Komponenten von 
p den in Gleichung (7.47) angegebenen unteren Schranken entsprechen müs- 


sen. 
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7.4.2 Entscheidungskriterien unter linearer partieller 
Information 


Die Ergebnisse des vorangegangenen Abschnitts werden nun genutzt, um Kri- 
terien im Hinblick auf eine (global) optimale Entscheidungsfindung auf Basis 
eines lokalen Bayes’schen Modells zu formulieren. Zum einem wird der Fra- 
ge nachgegangen, unter welchen Umständen man sicher sein kann, dass eine 
auf Basis eines lokalen Bayes’schen Modells getroffene Entscheidung tatsäch- 
lich (global) optimal ist. Zum anderen wird der Frage nachgegangen, um wie 
viel schlechter (im Form des (globalen) a posteriori erwarteten Nutzens) eine 
auf Basis eines lokalen Bayes’schen Modells getroffene Entscheidung maxi- 
mal sein kann im Vergleich zur (global) optimalen Entscheidung. Dieses Vor- 
gehen ist letztlich inspiriert von in [Pre02] dokumentierten Ansätzen. 


Als Grundlage für die Ableitung der nachfolgenden Ergebnisse dient die in 
Lemma 7.6 formulierte Rückführung der (globalen) Entscheidungsfindung auf 
Basis eines lokalen Bayes’schen Modells auf ein Entscheidungsproblem unter 
linearer partieller Information. 


Satz 7.9. Hinsichtlich der globalen A-Posteriori-Verteilung p(z|d) sei gerade 
bekannt, dass diese in der Menge Pz aller Wahrscheinlichkeitsverteilungen auf 
Z, welche konsistent mit Gleichung (7.2) und Gleichung (7.8) sind, enthalten ist. 
Dann stellt mit der Notation aus Lemma 7.6 für jede Aktion a € A die Menge 
der möglichen Werte ihres (globalen) a posteriori erwarteten Nutzens 


[Epcalula,z)]|p(zid) € Bz} (7.54) 


ein Intervall der folgenden Form dar: 


yl) := [Ep (eam) Ew lielas] (7.55) 


LF 
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wobei 


LF 


By, [éar(a04)] = min (1-8) min, ua) + B Epea vluaz) 
Epean lula.) f (7.56) 
Ew ‚[uır(a,u)] = max ja — B) max ulam) + B Epa, vluaz), 


Epeawlu(az)]f. (7.57) 


Beweis. E„[u;r(a,v;)] stellt gemäß Gleichung (7.51) eine lineare Funktion be- 
züglich p dar. Da W; ein konvexes Polyeder darstellt, kann somit Lemma 7.7 
angewandt werden. Die Menge der möglichen Werte des (globalen) a poste- 
riori erwarteten Nutzens einer Aktion a € A, welche resultiert, wenn p in 
Wr variiert, stellt somit ein Intervall der folgenden Form dar: 


I Uırla,v;)| = min E,|u;p(a,y,)|, max E,„l[urr(a,v; : 
Wl ir | ES pl ur ;)] PEV (Wir) pl Lr ni| 


(7.58) 


Die Menge V(Wır) der Ecken von Wr wurde bereits in Lemma 7.8 bestimmt. 
Aus Gleichung (7.51) ergibt sich damit weiter, dass gilt 


{Eplur(am)l|p E VW} = {Epceia,ylu(a.z)]} 
U fa a P)u(a,v;) + ß Ep(z|d,U) [u(a,z)]i = 1, $29 M} : (7.59) 
Vi. E {is --- Yu} minimiert den Ausdruck in der zweiten Menge auf der rech- 


ten Seite von Gleichung (7.59), wenn u(a,V,,) = minı<i<m U(a,V;) gilt. Hier- 
aus ergibt sich Gleichung (7.56). Eine analoge Betrachtung im Hinblick auf die 


Maximierung dieses Terms liefert Gleichung (7.57). 


In der vorliegenden Arbeit wird (anders als in [Pre02]) die Festlegung verwen- 
det, dass eine Aktion a* € A eine andere Aktion a** € A \ {a*} dominiert, 
wenn a* im Hinblick auf den a posteriori erwarteten Nutzen definitiv min- 
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destens so gut ist wie a**. Offensichtlich ist sichergestellt, dass die Aktion a* 
die Aktion a** (global) dominiert, wenn gilt 


Ey [uam] < Ep, [ure(a*.y))] - (7.60) 


Der nächste Satz liefert ein zusätzliches Kriterium, auf Basis dessen auch 
in (bestimmten) Fällen, in denen das Dominanzkriterium gemäß Glei- 
chung (7.60) nicht erfüllt ist, festgestellt werden kann, dass eine Aktion eine 
andere Aktion dominiert. 


Satz 7.10. Hinsichtlich der globalen A-Posteriori-Verteilung p(z|d) sei gerade 
bekannt, dass diese in der Menge Pz aller Wahrscheinlichkeitsverteilungen auf 
Z, welche konsistent mit Gleichung (7.2) und Gleichung (7.8) sind, enthalten ist. 
Ist für zwei (unterschiedliche) Aktionen a*,a** € A die Beziehung 


max |(1 - 8) max fulan) - uam) 


+ ß Epczja,uylu(la**,z) — u(a*,z)], Ep(zia,uylu(a**,z) — ua 2)l| <0 


(7.61) 


erfüllt, so dominiert die Aktion a* die Aktion a**. Die in Gleichung (7.61) for- 
mulierte Bedingung kann dabei grundsätzlich nur dann erfüllt sein, wenn die 
Aktion a* die Aktion a** im lokalen Bayes’schen Modell dominiert, d. h. falls 


Epa, v) lu(a™,Z)] < Epezja,uylu(la*,z)] (7.62) 


erfüllt ist. 


Beweis. Die Aktion a* dominiert die Aktion a**, wenn für alle p € Wır ge- 
mäß Gleichung (7.47) die folgende Beziehung gilt: 


Ep[ur(a**,y,)] —Ep[upp(a*.y)] = Eplurrla**,v)-urrla*,v)] <0. (7.63) 
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Diese Bedingung ist dann erfüllt, wenn gilt 


max E„[u,r(a**,v) — urla”,v)]<O. (7.64) 
pew iy 


Da E„[u;r(a**,v;) — ujp(a*,y;,)] wiederum eine lineare Funktion bezüglich p 
darstellt, ist Lemma 7.7 anwendbar. Die Funktion E,[u, r(a** ‚v;) — uy p(a*,y;)] 
nimmt also ihr Maximum in einer der Ecken von Wr an. Mit der abkürzenden 
Notation 


u(a*,a”*,z) := u(a**,z) — u(a”,z) (7.65) 
ergibt sich 


(E iusan) — una m)]|p € VW) = [Epea,ınlula”,a” zl} 
U fa - p) u(a*,a*™* vi) + BEpcia,ylu(a*.a**,z)]|i = 1... M} ; 
(7.66) 


Die Gültigkeit des Dominanzkriteriums gemäß Gleichung (7.61) folgt nun, in- 
dem man das Maximum von Gleichung (7.66) nimmt und aus der zweiten 
Menge auf der rechten Seite die Elemente entfernt, für die der Ausdruck si- 
cher nicht maximal wird. 


Weiter gilt trivialerweise, dass die Gültigkeit der in Gleichung (7.61) formu- 
lierten Bedingung nur dann gegeben sein kann, wenn gilt 


E pczia,uylu(a™.Z)] < Epezja,uylu(a*,z)] . (7.67) 


Der Beweis des nachfolgenden Korollars 7.11 stellt eine exemplarische An- 
wendung von Satz 7.10 dar. Es sei angemerkt, dass ein alternativer Beweis 
von Korollar 7.11, der ohne die im vorliegenden Abschnitt 7.4 behandelten 
entscheidungstheoretischen Konzepte auskommt, in [San10a] veröffentlicht 
wurde. 
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Korollar 7.11. Für zwei Ereignisse B,, B, mit B, C U, B, C Z gilt gerade 
P(B,|d) > P(B,|d), wenn die Schranken der zugehörigen Wahrscheinlichkeits- 
intervalle gemäß Gleichung (7.20) die folgende Beziehung erfüllen 


r(B, NU) <1(B,) -\B,nU). (7.68) 


Korollar 7.11 kann als (globales) Entscheidungsproblem mit Aktionenmenge 
A = {B,,B,} und Nutzenfunktion 


1, falszeB, 
u(B,Z) = 1p(Z) = 7.69 
Á a 0, fallsz¢B, un 


aufgefasst werden. Es gilt damit für B € {B} ‚B,} nämlich gerade die Beziehung 
Epczuaylu(B,z)] = P(Bld). 


Beweis. Im Folgenden kann ohne Beschränkung der Allgemeinheit angenom- 
men werden, dass B, N B, = Ø gilt. Gilt dies nicht, so ergibt sich Korollar 7.11 
nämlich aus einem Vergleich der globalen A-Posteriori-Wahrscheinlichkeiten 
von B; \ (B1 N B2) und B; \ (B1 N B2). 


Nachfolgend wird gezeigt, dass B, von B, dominiert wird, wenn die in Ko- 
rollar 7.11 formulierte Bedingung erfüllt ist. Es gelte ohne Beschränkung der 
Allgemeinheit B, = V U (U icz %} ) mit V C U und J C {1, ... , M}. Das Domi- 
nanzkriterium gemäß Gleichung (7.61) liefert dann die Bedingung 


max {r(B, N U) — r(B,), r(B, NU) + (B3 NU) - \(B,)} <0. (7.70) 


Der zweite Anteil in der in Gleichung (7.70) angegebenen Menge ist nicht 
größer als Null, wenn gilt 


r(B, NU) < I(B1) — I(B N U) . (7.71) 


Weiter ist die Bedingung r(B, N U) — r(B,) < 0 erfüllt, wenn die Beziehung 
I(B NU) — 1(B,) < 0 gilt. Dar(B,NÜ) > 0 ist, garantiert die Bedingung 
gemäß Gleichung (7.71) somit, dass B, von B, dominiert wird. 
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Der Fall B, C U\Bı zeigt, dass das in Gleichung (7.60) angegebene Dominanz- 
kriterium eine hinreichende, aber nicht notwendige Bedingung für Dominanz 
darstellt: In diesem Fall gilt (mit der Festlegung gemäß Gleichung (7.58)) für 
B € {B1,B2} gerade ly, „Lurr(B,v)] = [1(B),r(B)]. Gemäß Korollar 7.11 wird 
B, von B, dominiert, wenn gilt I(B,) < 1(B,). Dies ist eine schwächere Bedin- 
gung, als sie Gleichung (7.60) mit r(B,) < 1(B,) vorgibt. 


Auch in Fällen, in denen es auf Basis des lokalen Bayes’schen Modells nicht 
möglich ist, eine Aktion a € A zu identifizieren, welche einen maximalen 
erwarteten Nutzen im Hinblick auf alle möglichen (globalen) A-Posteriori- 
Verteilungen p(z|d) € J, besitzt, kann eine ausreichend gute (globale) Ent- 
scheidungsfindung unter Umständen möglich sein: Der Entscheider kann un- 
ter Umständen in der Lage sein, eine Aktion a € A auszuwählen, welche 
möglicherweise nicht optimal, aber dennoch ausreichend gut im Hinblick auf 
die konkrete Aufgabenstellung, ist. 


Um einen derartigen Ansatz umzusetzen, können sog. Regret-Werte betrach- 
tet werden. Der Regret R(a) einer Aktion a € A ist dabei definiert als der im 
Vergleich zur besten Aktion apt gemäß Gleichung (7.42) maximal fehlende a 
posteriori erwartete Nutzen, wenn man a statt a,,, wählt (vgl. auch [Pre02]). 


Der nachfolgende Satz stellt ein Mittel zur Einschätzung des Regrets der mög- 
lichen Aktionen a € A auf Basis eines lokalen Bayes’schen Modells dar. 


Satz 7.12. Hinsichtlich der A-Posteriori-Verteilung p(z|d) sei gerade bekannt, 
dass diese in der Menge Pz aller Wahrscheinlichkeitsverteilungen auf Z, welche 
konsistent mit Gleichung (7.2) und Gleichung (7.8) sind, enthalten ist. Dann ist 
für jede Aktion a* € A der (globale) Regret R,;(a*) von a* wie folgt nach oben 
beschränkt: 


Rır(a*) < max fryen a, 


(1 -P)max max {ulam) - uam + Rule") 


(7.72) 
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Dabei ist Ry(zja,uy(a*) der Regret von a* im lokalen Bayes’schen Modell, d. h. 


Rpczja,u)(a*) = max Epczia,uylu(a,z)] — Epczja,uylula*,z)]. (7.73) 


Beweis. Es gilt 


Rır(a*) = E lula, )] — Ep[upp(a*.y;) |} - 7.74 
ır(a*) er pee pl ır(a,V;)] pl ir all; ( ) 
Die Menge in Gleichung (7.74) entspricht im Wesentlichen der Menge in Glei- 
chung (7.64). Satz 7.12 ergibt sich damit in nahezu analoger Weise, wie bei der 
Maximierung der Menge in Gleichung (7.64) vorgegangen wurde. Führt man 
eine zusätzliche Maximierung bezüglich a € A durch und berücksichtigt, dass 
diese subadditiv ist, so führt dies unter Berücksichtigung der Definition von 
Ryczia,uy(a*) direkt auf die in Gleichung (7.72) formulierte Abschätzung für 
Rır(a*). 


7.4.3 Verbesserung der Entscheidungsgrundlage 


Ist für den Entscheider keine adäquate (globale) Entscheidungsfindung auf 
Basis des lokalen Bayes’schen Modells möglich, so kann er, wiederum auch 
dem konzeptionell verwandten Grundgedanken des Lazy Decision Makings 
folgend, prinzipiell die gemäß Lemma 7.6 vorliegende lineare partielle Infor- 
mation weiter präzisieren. 


Eine Möglichkeit für eine derartige Präzisierung besteht darin, die lokale 
Bayes’sche Fusion auf eine Obermenge des (bisherigen) lokalen Kontexts U 
ausweiten. Um dieses Vorgehen exemplarisch zu beschreiben, sei angenom- 
men, dass U um vy zu U, := U U {vy} erweitert wird und dass für alle 
z € Ü, dann die Bedingung I(d|z) < 6, erfüllt ist. Dabei sei ô; eine Schranke, 
welche 6, < 6 erfüllt, und ô sei die gemäß der Annahme in Satz 7.1 für alle 
ze Ü geltende Schranke. 


Hierdurch wird dann Wy; gemäß Gleichung (7.47) wie folgt präzisiert: Die 
Ungleichung 0 < p™ wird zur Gleichung 
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m+ı _ POmld,U,) 


M= RIT ae EEE 7.75 
P =P | T= pola) se 
und die Ungleichung pM*! > 8 wird zu 
Ju, Kdlz) p(zIU,) dz 
M+1y UL 2 (>). (7.76) 


Jo, Kalz) pl) dz + Gy - D4. 
Die Ausweitung von U zu U, führt also auf lineare partielle Information, wel- 
che mit einer (präzisierten) Teilmenge von Wy, gemäß Gleichung (7.47) kor- 
respondiert. Dies kann dazu führen, dass die Länge der Intervalle für den (glo- 
balen) a posteriori erwarteten Nutzen von Aktionen abnimmt, mehr (globale) 
Dominanzbeziehungen zwischen Aktionen identifizierbar sind und sich die 


(globalen) Regret-Werte von Aktionen verringern. 


Um das Entscheidungsproblem unter der neuen linearen partiellen Informati- 
on auszuwerten, ist es sinnvoll, die resultierende Notation wieder an die zuvor 
vorliegende Notation anzupassen. Setzt man dementsprechend neu 


M, :=M-1, 
Zir := Wu... /m +4} mit Ym + =U, 
p := (p}, cops 

mit p! := p(v;|d) für i € {1, ...,Mı} und p/ı*l := P(U,|d) , (7.77) 


so sind die Ergebnisse aus Abschnitt 7.4.1 und Abschnitt 7.4.2 direkt anwend- 
bar, wenn man M durch M, ersetzt. 


Eine andere Möglichkeit für eine Präzisierung besteht darin, die zusätzliche 
Annahme, dass die A-Posteriori-Wahrscheinlichkeit P(U|d) des Komple- 
ments U des lokalen Kontexts U nicht vollständig auf einen kleinen Anteil 
von Ü konzentriert ist, zu machen. Um die lineare partielle Information 
dementsprechend zu präzisieren, können für i € {1,...,M} nicht triviale 
obere Schranken bezüglich p! gesetzt werden. Dieses Vorgehen führt dann 
ebenfalls auf eine (präzisierte) Teilmenge von Wır gemäß Gleichung (7.47). 
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Macht man z.B. die Annahme, dass für ein k € {2,...,M} gilt, dass 


pe (7.78) 
k 

ist, so ändert sich die Struktur der Ecken des mit der linearen partiellen In- 
formation korrespondierenden konvexen Polyeders. Als Konsequenz müssen 
die Formeln in Gleichung (7.56), Gleichung (7.57), Gleichung (7.61) und Glei- 
chung (7.72) entsprechend angepasst werden: Die minimalen und maximalen 
Werte des Nutzens von Aktionen und die Nutzendifferenzen von Aktionen 
bezüglich U werden dabei ersetzt durch die arithmetischen Mittel der ent- 
sprechenden k niedrigsten und höchsten Werte. Der Fallk = M korrespon- 
diert mit der Annahme, dass entweder P(U|d) = 0 oder pt = (1 — ß)/M für 
i € {1, ...,M} gilt. 


7.4.4 Berechnungsbeispiel 


Der Übersichtlichkeit halber wird im vorliegenden Beispiel wieder angenom- 
men, dass der Umfang von Z eher gering ist. Konkret gelte Z = {v}, ... ,v}. 
Weiter sei angenommen, dass zwei Informationsquellen vorliegen. Die von 
ihnen gelieferten Informationsbeiträge dı und d, seien bedingt unabhängig 
gegeben z. Die A-Priori-Verteilung p(z) und die individuellen Likelihood- 
Funktionen I(d,|z) sowie 1(d2|Z) seien wie in Tabelle 7.1 angegeben. 


Tabelle 7.1: A-Priori-Verteilung und Likelihood-Funktionen. 


“Mm Vv Wy VW Vv 


p(z) 415) is 2/5 320 415 Y/20 
I(d,|z) Yo Yao 1/23 Y36 Yao 1⁄2 


I(d,|z) Yso Yao 1/36 136 Ya Viz 
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Zur Festlegung des lokalen Kontexts U werde die (gleiche) Schranke € an die 
standardisierten Likelihood-Funktionen angelegt. Ein möglicher Wert ze Z 
wird also ignoriert im lokalen Bayes’schen Modell, d.h. nicht in den lokalen 
Kontext U aufgenommen, wenn für s = 1 und s = 2 gilt 


I(d,|z) <6, mit ô, = € - max l(d;|z) . (7.79) 
ZEZ 


Die Festlegung € = 1/8 liefert 6; = 1/16 und 6, = 1/32 und somit den 
lokalen Kontext U = {v;,⁄}. Mit ô - 6, = 1/512 liefert Korollar 7.2 die un- 
tere Schranke ß ~ 0,7375 für die A-Posteriori-Wahrscheinlichkeit P(U |d) 
des lokalen Kontexts U. Gleichung (7.20) liefert damit das folgende Intervall- 
Schema für die durch p(z|d) verkörperte A-Posteriori-Wahrscheinlichkeit der 


Elementarereignisse: 


[0, 0,2625] für z € Ü = {n mn}; 
p(z|d) € [I(z), r(z)] © | [0,3278, 0,4444] für z =, (7.80) 
[0,4097,0,5556] für z 


Ve - 


Es gelten r(z) < 1(%) für z € U und I(v,) < 1(%). Aus Korollar 7.11 folgt 
damit, dass p(%|d) > p(z|d) für alle z € Z gilt. Der mögliche Wert v von 
z konnte damit also als globaler Maximum-A-Posteriori-Schätzwert identifi- 
ziert werden. 


Weiter seinun angenommen, dass eine Menge möglicher Aktionen durch A = 
{a1 ,a,,43} gegeben ist. Deren Nutzen in Abhängigkeit vom Wert von Z sei 
durch die in Tabelle 7.2 angegebene Nutzenfunktion u(a,z) quantifiziert. 


Tabelle 7.2: Nutzenfunktion. 


V h % u VW w» 
ulaz) 1 4 3 4 
ulaz) 3 8 4 3 4 4 
u(a3,z) 2 3 3 3 1 10 


252 


7.4 Anwendung der Entscheidungstheorie 


Man berechnet Eyzja,uylu(aı,z)] = 61/9, Epczja,uylu(a2,2)] = 4 und 
Ep(z\d,U) [u(a3,z)] = 6. 


Bestimmt man für j € {1,2,3} weiter die minimalen und maximalen Werte 
von u(aj,Z) für z € U, so liefert Satz 7.9 näherungsweise 


[5,2611, 6,7778] füra=aı, 
Epcziaylulalz)] € 4 [3,7375, 5,0500] füra=a,, (7.81) 
[4,9501, 6,0000] fira=a;. 


Aus Gleichung (7.81) erkennt man direkt, dass die Aktion a, global gesehen 
definitiv besser ist als die Aktion a, (vgl. auch Gleichung (7.60)). Bestimmt 
man für z € Ü den maximalen Wert der Nutzendifferenz u(a3,Z) — u(ay,Z), 
so liefert das Dominanzkriterium aus Satz 7.10 zusätzlich das Ergebnis, dass 
die Aktion a, weiter auch die Aktion a3 dominiert. Insgesamt folgt also, dass 
sichergestellt ist, dass die Aktion a, den maximalen a posteriori erwarteten 
Nutzen im globalen Bayes’schen Modell aufweist. 


Um aufzuzeigen, dass es nicht in allen Fällen möglich ist, auf Basis eines 
lokalen Bayes’schen Modells wie beschrieben eine Aktion zu identifizieren, 
welche sicher global gesehen optimal ist, wird das vorliegende Beispiel nun 
wie folgt modifiziert: Die Menge der möglichen Aktionen sei nun gegeben 
durch A = {a,,a3} und es gelte (anders als in Tabelle 7.2 angegeben) nun 
ulaz) =8. 


Diese Änderungen haben keine Auswirkung auf die Intervalle für den 
(globalen) a posteriori erwarteten Nutzen bezüglich E(zjaylu(a2,z)] und 
Ep(zia)lu(az,z)] - obwohl sich der tatsächlich vorliegende Wert von 
Epcziaylu(a2,z)] natürlich geändert hat durch die Modifizierung von u(a2,2). 
Nimmt man an, dass im globalen Bayes’schen Modell p(v,|d) = 1 — £ gilt, so 
erhält man E,(zja)lu(a2,2)] X 5,0500 und E„(ziaylu(a3,z)] ~ 4,9501. Unter 
dieser Annahme gilt also, dass die Aktion a, besser als die Aktion az ist. 
Nimmt man dagegen an, dass im globalen Bayes’schen Modell p(%4|d) = 1— f 
gilt, so erhält man Epzjqy[w(a2,Z)] © 3,7375 und E,„(zia)lu(a3,z)] X 5,2125. 
Unter dieser Annahme gilt also entgegengesetzt, dass die Aktion az besser 


253 


7 Einbettung in den globalen Kontext 


als die Aktion a; ist. Der im lokalen Bayes’schen Modell verfügbare Informa- 
tionsstand im Hinblick auf z reicht also definitiv nicht aus, um festzustellen, 
ob eine der beiden Aktionen im globalen Bayes’schen Modell einen höheren a 
posteriori erwarteten Nutzen aufweist bzw. um welche der beiden Aktionen 
es sich dabei handelt. 


Im Hinblick auf die Einschätzung des Regrets liefert die exemplarische An- 
wendung von Satz 7.12 für die Aktion a, näherungsweise R,p(a3) < 0,0999. 
In Abhängigkeit von der konkret vorliegenden Aufgabenstellung könnte die- 
se obere Schranke für den Regret der Aktion az ausreichend gering sein, um 
dem Entscheider zu erlauben, sich direkt für a; zu entscheiden. 


Ist ihm dies nicht möglich, so könnte man den lokalen Kontext U wie in Ab- 
schnitt 7.4.3 dargestellt ausweiten. Beispielsweise könnte man dazu die untere 
Schranke e, welche an die standardisierten Likelihood-Funktionen angelegt 
wird (vgl. Gleichung (7.79)), absenken. Setzt man z.B. konkret e = 1/10, so 
enthält der lokale Kontext U zusätzlich zu v; und v noch die möglichen Wer- 
te v und v4. Man berechnet ô; - ö, = 1/800 und Korollar 7.2 liefert als un- 
tere Schranke für die A-Posteriori-Wahrscheinlichkeit P(U|d) des (nun um- 
fassenderen) lokalen Kontexts U gerade Ê ~ 0,8888. Man berechnet weiter 
Epczia,uylu(a2,z)] © 3,9711 und Ey(zja,uylu(a2,2)] © 5,8139. Satz 7.9 liefert 
damit dann näherungsweise 


3,9711,4,4191] füra=a;,, 
Epczja)lu(alz)] e}! ee (7.82 
[5,3898, 5,8139] fira=a3. 


Es ist nun also definitiv bekannt, dass im globalen Bayes’schen Modell der 
a posteriori erwartete Nutzen von Aktion az größer ist als der a posteriori 
erwartete Nutzen von Aktion a, (vgl. auch Gleichung (7.60)). 
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8.1 Zusammenfassung 


In der vorliegenden Arbeit werden neue Ansätze zur Bewältigung Bayes’scher 
Fusion beim Vorliegen eines umfangreichen, ggf. recht hochdimensionalen 
Zielgrößenraums eingeführt. Diese erlauben es, die Bayes’sche Fusion mög- 
lichst konzentriert auf die Anteile des Wertebereichs der Größen des Interes- 
ses durchzuführen, in denen sich tatsächlich Aufgabenrelevantes abspielt. 


In Rahmen der Arbeit werden diese Ansätze formal mathematisch formalisiert 
und analysiert. Die Arbeit zeigt insbesondere auf, dass die anvisierte Einnah- 
me eines lokalen Standpunkts bei der Bayes’schen Fusion konsistent in den 
Bayes’schen Kalkül integrierbar ist und stellt letztlich das hierfür notwendige 
Werkzeug in konzeptioneller und methodischer Hinsicht zur Verfügung. Als 
oftmals besonders vielversprechend für die lokale Bayes’sche Fusion hetero- 
gener Informationsquellen erweist sich ein Ansatz, welcher eine vollständige 
Einschränkung des probabilistischen Modells auf den lokalen Kontext vor- 
nimmt. Für die Umsetzung der lokalen Bayes’schen Fusion kann gerade dann 
auch auf das Konzept für die agentenbasierte Fusionsarchitektur zurückge- 
griffen werden. 


Nachfolgend werden die wissenschaftlichen Ergebnisse, welche die vorliegen- 
de Arbeit in Bezug auf zentrale Themenkomplexe liefert, in komprimierter 
und in Bezug auf die zugrundeliegenden mathematischen Details abstrahier- 
ter Form zusammengefasst: 


Repräsentation und Propagation lokaler Informationsstände 
Die Arbeit zeigt auf, dass die anvisierte Einnahme eines lokalen Standpunkts 
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bei der Bayes’schen Fusion, d.h. die Konzentration der Fusion auf einen lo- 
kalen Kontext, auf Basis lokaler Bayes’scher Modelle, welche aus mathema- 
tischer Hinsicht auch tatsächlich valide sind, erfolgen kann. Sie liefert da- 
bei auch eine Antwort auf die Frage, wie dies genau möglich ist. Es werden 
so letztlich probabilistische Modelle erarbeitet, für welche die theoretische 
Fundiertheit der Bayes’schen Fusionsmethodik erhalten bleibt. Dadurch steht 
dann das gesamte Spektrum der durch die Bayes’sche Theorie für die Infor- 
mationsfusion bereitgestellten Konzepte und Verfahren grundsätzlich weiter- 
hin zur Verfügung. Konkret werden in der Arbeit zwei verschiedene Ansätze, 
Informationsstände lokal zu repräsentieren und durch die (lokale) Einbezie- 
hung der von den Informationsquellen gelieferten Beiträge weiterzuentwi- 
ckeln, formalisiert und grundlegend untersucht. Zusätzlich wird aufgezeigt, 
wie genau sich diese Modelle ausgestalten, wenn die lokale Bayes’sche Fusion 
kooperativ durch unterschiedliche Agenten, welche jeweils lokale Informati- 
onsstände in Bezug auf bestimmte Anteile des lokalen Kontexts besitzen und 
weiterentwickeln, vorgenommen wird, und was die Voraussetzungen dafür 
sind, damit derartige lokale Informationsstände überhaupt zu einem gemein- 
samen Resultat zusammengeführt werden können. 


Kriterien zur Festlegung des lokalen Kontexts 

Der Gedanke, die lokale Bayes’sche Fusion auf Basis vorab ermittelter Auf- 
fälligkeiten im Zielgrößenraum auf einen lokalen Kontext zu konzentrieren, 
ist ausgehend vom Konzept für die agentenbasierte Fusionsarchitektur zwar 
intuitiv nachvollziehbar, die Antwort auf die Frage, wie sich dieser Gedanke 
formal gesehen umsetzen lässt, ist aber nicht trivial. Im Rahmen der Arbeit 
werden die Bezüge zwischen der Bayes’schen Inferenz und weiteren, im Be- 
reich der induktiven Statistik verfügbaren Inferenzkonzepten sowie die Be- 
züge der Bayes’schen Theorie zu informationstheoretischen Konzepten und 
Ansätzen herausgearbeitet. Auf dieser Basis werden konkret Prinzipien aus 
der Likelihood-Inferenz und Ansätze aus der Informationstheorie als vielver- 
sprechend identifiziert, aufgegriffen und im Hinblick aufihre Anwendung für 
die lokale Bayes’sche Fusion weiterentwickelt, um letztlich abzuleiten, welche 
Kriterien sie im Hinblick auf die Festlegung des lokalen Kontexts liefern. Ein 
wesentlicher Beitrag der Arbeit besteht dabei insbesondere darin, dass auch 
beleuchtet wird, inwieweit und wie genau diese Ansätze es ermöglichen, die 
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Adäquatheit des lokalen Kontexts und damit auch die der lokalen Bayes’schen 
Modelle quantitativ zu bewerten und wo die jeweiligen Grenzen diesbezüglich 
liegen. 


Einbettung in den globalen Kontext 

Die vorliegende Arbeit liefert dem genauen Ziel der Informationsfusion 
entsprechend unterschiedliche Antworten auf die Frage, wie sich die aus 
der lokalen Bayes’schen Fusion, welche durch Einschränkung auf den lo- 
kalen Kontext erfolgt, ergebende partielle Information in Hinblick auf die 
Größen des Interesses unter Einbeziehung zusätzlich verfügbarer Informa- 
tion darüber, wie der lokale Kontext gebildet wurde, in Bezug zur (lokal 
unbekannten) globalen A-Posteriori-Verteilung setzen lässt. Es wird ein 
Wahrscheinlichkeitsintervall-Schema formuliert, anhand dessen sich lokale 
und globale A-Posteriori-Wahrscheinlichkeiten genauer in Beziehung setzen 
lassen. Weiter wird, wieder unter Berücksichtigung des engen Bezugs der 
Bayes’schen Theorie zur Informationstheorie, eine analytische Bestimmung 
der globalen (Maximum-Entropie) A-Posteriori-Verteilung, welche global 
gesehen den auf Basis des lokalen Ansatzes resultierenden Informationsstand 
in möglichst objektiver Weise repräsentiert, vorgenommen und untersucht. 
Als Alternative wird unter Zugrundelegung der Theorie linearer partieller 
Information und von Prinzipien des Lazy Decision Making untersucht, wie 
sich das Wahrscheinlichkeitsintervall-Schema methodisch gesehen direkt 
in die Lösung eines Entscheidungsproblems einbringen lässt und welche 
Schlüsse sowie Möglichkeiten zur Verbesserung der Informationsgrundlage 
auf dieser Basis möglich sind. 


Beiträge zur Fusion in Verbünden 

Insbesondere (jedoch nicht ausschließlich) wenn die Informationsfusion in 
Verbünden umgesetzt wird, kann die Herausforderung bei der Bayes’schen 
Fusion nicht nur darin bestehen, dass der Aufwand zur Berechnung (und gege- 
benenfalls auch zur weiteren Auswertung) der A-Posteriori-Verteilung nicht 
tragbar ist. Vielmehr können auch bereits die Bestimmung und Übermittlung 
der zu ihrer Berechnung erforderlichen Größen problematisch, möglicherwei- 
se sogar nicht realisierbar, sein. Das bei der (nicht lokalen) Bayes’schen Fusion 
umgesetzte Vorgehen, in Form der A-Posteriori-Verteilung jeweils stets zuerst 


257 


8 Zusammenfassung und Ausblick 


ein maximal umfassendes Fusionsresultat zu berechnen, widerspricht zudem 
auch konzeptionell dem für ein optimales Ressourcenmanagement notwendi- 
gen Prinzip, dass gerade in Verbünden Information letztlich nur dort und in 
der Form bereitgestellt werden sollte, wie sie auch tatsächlich benötigt wird. 
Die erarbeiteten Ansätze zur lokalen Bayes’schen Fusion liefern letztlich ge- 
rade auch Möglichkeiten, diese Herausforderungen zu adressieren. 


82 Ausblick 


In einer zunehmend vernetzten Welt wächst der Bedarf nach Systemen bzw. 
Systemverbünden, die in einer definierten Weise interoperabel miteinander 
interagieren. Dieser Themenkomplex war lange kein Fokus des Forschungs- 
gebiets Informationsfusion und zentrale Konzepte und Modelle, wie z.B. das 
JDL Fusionsmodell, wurden unabhängig hiervon entwickelt. Die vorliegen- 
de Arbeit greift wichtige Aspekte im Hinblick auf die Umsetzung der Infor- 
mationsfusion in Verbünden auf und zeigt insbesondere auch das Potential 
der lokalen Bayes’schen Fusion für derartige Aufgabenstellungen. Die Arbeit 
kann aber keine vollständigere Abhandlung des Themenkomplexes der In- 
formationsfusion in Verbünden leisten, so dass eine vertiefte Betrachtung in 
Folgearbeiten als zielführend zu erachten ist. 


Die software-technische Präzisierung und letztlich Umsetzung der agentenba- 
sierten Fusionsarchitektur, welche sicher auch ein wichtiges Thema für Fol- 
gearbeiten darstellt, könnte dann ggf. auch gerade im Hinblick auf ihre Um- 
setzung in Verbünden erfolgen. Ihre konkrete Umsetzung sollte dann auch 
unter Berücksichtigung von Aspekten der IT-Sicherheit und ggf. juristischer 
Aspekte erfolgen. 


Im Rahmen der Arbeit zeigte sich, vor allem im Hinblick auf die Möglichkeit, 
die Güte lokaler Bayes’scher Modelle zu bewerten und explizite Rückschlüsse 
auf das globale Bayes’sche Modell vorzunehmen, dass es problematisch sein 
kann, wenn der lokale Kontext allzu gering ausfällt. Diese Beobachtung steht 
letztlich konträr zum Wunsch, den Umfang des lokalen Kontexts möglichst 
gering zu halten, um den Aufwand für die lokale Bayes’sche Fusion so ge- 
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ring wie möglich auszugestalten. Eine Weiterentwicklung der in der vorlie- 
genden Arbeit erarbeiteten Ansätze zur lokalen Bayes’schen Fusion, indem 
man diese mit dem Prinzip konjugierter Verteilungsfamilien bzw. mit Ver- 
fahren zur Approximation der A-Posteriori-Verteilung bzw. von Kenngrößen 
derselben kombiniert, ist gerade auch vor dem Hintergrund dieser Tatsache 
als zielführend zu erachten. Dies gilt gerade auch bei einer verteilten Umset- 
zung der lokalen Bayes’schen Fusion. So ist es insbesondere zu erwarten, dass 
sich die im lokalen Bayes’schen Modell benötigten probabilistischen Größen 
deutlich besser durch überschaubare konjugierte Verteilungsfamilien appro- 
ximieren lassen als ihre Pendants im globalen Bayes’schen Modell. Bei der 
Umsetzung entsprechender Ansätze könnte man u.U. auch gezielt auf Ansät- 
ze zur Bayes’schen Robustheitsanalyse zurückgreifen. 


Zumindest für bestimmte Aufgabenstellungen ist auch der im Rahmen der 
Arbeit zwar erarbeitete, aber nicht in den Fokus gestellte Ansatz der Lokalität 
durch Vergröberung durchaus als vielversprechend zu erachten. Es wäre ein 
weiteres Thema für Folgearbeiten, diesen gerade in Bezug auf spezielle Auf- 
gabenstellungen der Informationsfusion hinsichtlich der Möglichkeiten, die 
mit ihm einhergehenden Schwierigkeiten zu adressieren, zu untersuchen und 
ihn weiterzuentwickeln. 
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